Noción de R cuadrado o Coeficiente de Determinación en Análisis de Datos o Data Science
En modelos estadísticos, fundamentales en la implementación de algunos tipos de Machine Learning (por ende, parte de lo que es Big Data), un concepto muy relevante para evaluar qué tan buen modelo es o qué tan bueno es su poder predictivo, se encuentra en el parámetro R2 (aquí debiera aparecer una R al cuadrado). Muy utilizado, pero poco comprendido; básicamente se entiende que mientras más se acerque su valor a 1 es bueno, por el contrario mientras más se acerque a 0 es malo.
Aquí intento explicar brevemente su significado con un ejemplo en dos dimensiones, aplicable a otros problemas.
Supongamos un problema de dos dimensiones para el cual existe un modelo de regresión lineal. La diferencia entre el valor predicho y el valor real se le denomina residuo (gráfico del lado izquierdo en el encabezado), a la sumatoria de todos estos residuos se le denomina Suma de los Cuadrados Residuales (SSres).
Para el mismo problema es posible trazar un promedio, las diferencias entre el valor de la variable dependiente y el promedio (lado derecho del encabezado), se llevan a una sumatoria denominada Suma Total de los Cuadrados (SStot).
Observemos la fórmula que aparece en el encabezado.
Es importante tener en cuenta que para un modelo de regresión siempre es necesario minimizar la diferencia entre el valor predicho y el valor real de la variable dependiente, aquí representado por SSres, para tener un mejor modelo. De esta forma el valor de R2 muestra qué tan buena es la linea del modelo de regresión (lineal) comparada con la linea promedio.
Al observar la fórmula es posible notar que a medida que SSres aumenta, el valor de R2 disminuye; por el contrario al obtener un bajo valor de SSres (que es lo deseado) el valor de R2 aumenta. El ideal, sería llegar a un SSres con valor cero, lo que generaría un valor de uno para R2. Si bien esto es muy poco probable, lo ideal es acercarse lo más posible a uno.
Valores negativos de R2 son posibles, esta situación se daría en el caso que el modelo fuera menos ajustado que el promedio. De todas formas, para efectos interpretativos en algunas áreas sería recomendable interpretarlo como cero.
Las publicaciones en LinkedIn no permiten insertar imágenes, por eso incluí unas pocas en el encabezado. Si tienes dudas sobre este artículo, te sugiero consultar el original publicado en mi blog.