Comprendiendo R-squared

Comprendiendo R-squared

Gracias por leer mi artículo Comprendiendo R-squared. Para seguir explorando temas de machine learning e inteligencia artificial, te invito a suscribirte a mi newsletter IA & Data Insights y seguirme en LinkedIn y X. Tu interacción enriquece la conversación en estos campos apasionantes.


¿Por Qué R-squared?

El Coeficiente de Determinación, conocido como R-squared, es una métrica ampliamente utilizada en estadística para medir la fuerza de la relación entre variables. Aunque frecuentemente se compara con el Coeficiente de Correlación de Pearson r, R-squared ofrece una interpretación más intuitiva y directa.

Pero ¿Por qué la necesidad del Coeficiente R-squared cuando ya se dispone del Coeficiente de Correlación r?

La Relación entre R-squared y r

El R-squared, aunque similar a r, se distingue por su interpretación más directa. En el contexto de una regresión lineal, R-squared corresponde al cuadrado del Coeficiente de Correlación de Pearson r. Por ejemplo, un r estadísticamente significativo de 0.8 al cuadrado es 0.64, lo cual indica que la relación entre las dos variables explica el 64% de la variación en los datos. De forma similar, un r de 0.6 al cuadrado, que es 0.36, sugiere que la relación explica el 36% de la variación en los datos.

El Coeficiente R-squared es frecuentemente preferido sobre r por su claridad interpretativa. Consideremos un r de 0.8 en comparación con uno de 0.6. Al elevar al cuadrado estos valores para obtener R-squared, resulta que un R-squared de 0.64 explica el 64% de la variación original, mientras que un R-squared de 0.36 explica el 36%. Así, R-squared facilita la comprensión de que la primera correlación es aproximadamente 1.8 veces más explicativa que la segunda.

Interpretando los Valores de R-squared

En un escenario donde se presenta un R-squared estadísticamente significativo de 0.85, se podría interpretar que la relación entre las dos variables explica el 85% de la variación en los datos. Por otro lado, un R-squared significativo de sólo 0.02 indica que, aunque la relación sea estadísticamente significativa, apenas explica el 2% de la variación en los datos, sugiriendo la influencia de otros factores en el restante 98%.

Aplicando R-squared

Para ejemplificar la utilidad y el uso de R-scuared, se examina un conjunto de datos que ilustran la identificación, peso, altura y tiempo de traslado al trabajo de un grupo de individuos.

Primero, se grafica el peso de los individuos en el eje Y y los números de identificación en el eje X. Es posible calcular la media de los pesos y representarla como una línea horizontal en el gráfico. La variación de los datos alrededor de esta media se calcula sumando las diferencias al cuadrado entre el peso de cada individuo y la media. Las diferencias se elevan al cuadrado para asegurar que los valores por debajo de la media no contrarresten a los que están por encima.

Ahora, si en lugar de ordenar por el número de identificación, se ordenan por su altura, con el más bajo a la izquierda y el más alto a la derecha, la media y la variación siguen siendo las mismas que antes.

De esta manera, se plantea la siguiente cuestión: dados la altura y el peso de un individuo, ¿representa la media el predictor más eficaz del peso? La respuesta es negativa. Una predicción más precisa del peso se logra mediante la aplicación de una línea de ajuste a los datos.

Mejorando la Predicción con Líneas de Ajuste

La aplicación de una línea de ajuste a los datos conlleva una mejora significativa en la predicción del peso de un individuo basándose en su altura. Por ejemplo, conociendo la altura de una persona, se puede emplear la línea de ajuste para estimar su peso con mayor exactitud.

De esta manera, se plantea una pregunta fundamental: ¿Supera el ajuste de la línea azul, recientemente trazada, al de la media en términos de precisión? Y de ser así, ¿en qué medida?

A primera vista, la línea azul parece ofrecer un mejor ajuste a los datos que la media. Para cuantificar esta mejora, se emplea R-squared.

La ecuación de R-squared se formula como la proporción de la variación total menos la variación residual sobre la variación total. La primera parte de esta ecuación refleja la variación alrededor de la media, calculada como la suma de las diferencias al cuadrado entre los valores reales de los datos y la media de estos.

La segunda componente de la ecuación representa la variación alrededor de la línea azul. Esta parte de la ecuación cuantifica la variación residual, que es la suma de las diferencias al cuadrado entre los valores reales de los datos y los valores predichos por la línea ajustada.

Calculando R-squared

El cálculo de R-squared implica el numerador, que representa la diferencia entre la variación total, y la variación residual. Esta diferencia se divide por la variación total. Dicha operación hace que R-squared oscile entre cero y uno, reflejando que la variación alrededor de la línea ajustada nunca excede la variación total y siempre es un valor no negativo. Este procedimiento también transforma R-squared en una métrica porcentual.

Ahora, veamos el ejemplo.

  • La variación total alrededor de la media (suma de las diferencias al cuadrado entre el peso y la media) es aproximadamente 2.426,42.
  • La variación alrededor de la línea azul (suma de las diferencias al cuadrado entre el peso y las predicciones de la línea de regresión) es 1.371,45, lo que confirma que se ajusta mucho mejor a los datos.
  • Al aplicar estos valores en nuestra fórmula para R-squared obtenemos 0,435 (o 43,5%).

Esto indica que la línea azul explica aproximadamente el 43,5% de la variación en el peso, basado en su altura. Esto sugiere una correlación fuerte entre el peso y el altura.

Comparando Variables Desvinculadas

Se analiza un ejemplo adicional comparando dos variables potencialmente no correlacionadas: el peso de un individuo en el eje Y y su tiempo de traslado al trabajo en el eje X.

  • Al igual que antes, la variación total alrededor de la media es aproximadamente 2.426,42.
  • Pero esta vez, la variación alrededor de la línea azul es mucho mayor, aproximadamente 2.360,25.
  • Al introducir estos valores en la fórmula de R-squared es aproximadamente 0,027 (o 2,7%), lo que indica que la relación entre el tiempo de viaje al trabajo y el peso sólo explica el 2,7% de la variación total.

Este resultado sugiere que la relación entre el peso y el tiempo dedicado a viajar al trabajo explica sólo el 2,7% de la variación en el peso. Esto indica una correlación muy débil o inexistente entre estas dos variables en los datos simulados, lo cual es coherente con el análisis.

Conclusión

El Coeficiente de Determinación R-squared se destaca en estadística por su habilidad para expresar qué proporción de la variación en una variable dependiente es explicada por las variables independientes en un modelo. Esta capacidad se traduce en una medida porcentual, proporcionando una comprensión clara y directa del grado en que las variables están correlacionadas. En comparación con otras métricas, como el Coeficiente de Correlación de Pearson r, R-squared aporta una visión más tangible y cuantificable sobre las relaciones entre variables.

Inicia sesión para ver o añadir un comentario.

Otros usuarios han visto

Ver temas