Noción de R cuadrado o Coeficiente de Determinación en Análisis de Datos o Data Science

Eric Melillanca Torres

Fecha de publicación: 8 jun 2018

En modelos estadísticos, fundamentales en la implementación de algunos tipos de Machine Learning (por ende, parte de lo que es Big Data), un concepto muy relevante para evaluar qué tan buen modelo es o qué tan bueno es su poder predictivo, se encuentra en el parámetro R2 (aquí debiera aparecer una R al cuadrado). Muy utilizado, pero poco comprendido; básicamente se entiende que mientras más se acerque su valor a 1 es bueno, por el contrario mientras más se acerque a 0 es malo.

Aquí intento explicar brevemente su significado con un ejemplo en dos dimensiones, aplicable a otros problemas.

Supongamos un problema de dos dimensiones para el cual existe un modelo de regresión lineal. La diferencia entre el valor predicho y el valor real se le denomina residuo (gráfico del lado izquierdo en el encabezado), a la sumatoria de todos estos residuos se le denomina Suma de los Cuadrados Residuales (SSres).

Para el mismo problema es posible trazar un promedio, las diferencias entre el valor de la variable dependiente y el promedio (lado derecho del encabezado), se llevan a una sumatoria denominada Suma Total de los Cuadrados (SStot).

Observemos la fórmula que aparece en el encabezado.

Es importante tener en cuenta que para un modelo de regresión siempre es necesario minimizar la diferencia entre el valor predicho y el valor real de la variable dependiente, aquí representado por SSres, para tener un mejor modelo. De esta forma el valor de R2 muestra qué tan buena es la linea del modelo de regresión (lineal) comparada con la linea promedio.

Al observar la fórmula es posible notar que a medida que SSres aumenta, el valor de R2 disminuye; por el contrario al obtener un bajo valor de SSres (que es lo deseado) el valor de R2 aumenta. El ideal, sería llegar a un SSres con valor cero, lo que generaría un valor de uno para R2. Si bien esto es muy poco probable, lo ideal es acercarse lo más posible a uno.

Valores negativos de R2 son posibles, esta situación se daría en el caso que el modelo fuera menos ajustado que el promedio. De todas formas, para efectos interpretativos en algunas áreas sería recomendable interpretarlo como cero.

Las publicaciones en LinkedIn no permiten insertar imágenes, por eso incluí unas pocas en el encabezado. Si tienes dudas sobre este artículo, te sugiero consultar el original publicado en mi blog.

Inicia sesión para ver o añadir un comentario.

Más artículos de Eric Melillanca Torres

Desperdicio y Retrabajo: Un Obstáculo para la Eficiencia

20 ago 2024

Desperdicio y Retrabajo: Un Obstáculo para la Eficiencia

En el contexto de la eficiencia operativa, el desperdicio se refiere a cualquier recurso, tiempo o esfuerzo utilizado…

2 comentarios
Enfoque en Procesos: Eliminar Desperdicios en Lean Manufacturing

12 jul 2024

Enfoque en Procesos: Eliminar Desperdicios en Lean Manufacturing

Introducción Lean Manufacturing, también conocido como el Sistema de Producción Toyota (TPS), es una filosofía…
Pensamiento a Largo Plazo: La Piedra Angular del Lean Manufacturing

4 jul 2024

Pensamiento a Largo Plazo: La Piedra Angular del Lean Manufacturing

Introducción En el corazón del Lean Manufacturing se encuentra una filosofía fundamental: el pensamiento a largo plazo.…
Cómo Implementar Buenas Prácticas, Basado en Lean Manufacturing: El Registro de Aprendizajes

25 jun 2024

Cómo Implementar Buenas Prácticas, Basado en Lean Manufacturing: El Registro de Aprendizajes

Introducción En la implementación de Lean Manufacturing, uno de los aspectos más cruciales es la capacidad de aprender…
Just In Time: Técnica para la Eficiencia y Reducción de Desperdicios

19 jun 2024

Just In Time: Técnica para la Eficiencia y Reducción de Desperdicios

Introducción El concepto de 'Just In Time' (JIT) es una técnica relevante para el enfoque en procesos del Sistema de…

3 comentarios
La Eficiencia Visual: Implementación y Beneficios de Kanban en Departamentos Tecnológicos

6 jun 2024

La Eficiencia Visual: Implementación y Beneficios de Kanban en Departamentos Tecnológicos

Introducción En este artículo, exploraré el origen y los beneficios del sistema Kanban, su adopción en Toyota y cómo…

2 comentarios
Adaptando Lean Manufacturing en Servicios: Lecciones desde el Corazón de Toyota hasta la Era Digital

16 ene 2024

Adaptando Lean Manufacturing en Servicios: Lecciones desde el Corazón de Toyota hasta la Era Digital

Introducción La decisión de aplicar Lean Manufacturing en un entorno de servicios surgió de un análisis profundo del…
Mi Ruta de Aprendizaje de Lean Manufacturing

2 ene 2024

Mi Ruta de Aprendizaje de Lean Manufacturing

Introducción Mi viaje hacia la comprensión y aplicación de Lean Manufacturing comenzó no como una búsqueda de…
Optimizando la Producción: Los Sistemas de Producción y su Impacto Transformador

18 dic 2023

Optimizando la Producción: Los Sistemas de Producción y su Impacto Transformador

Tras la publicación de mi artículo anterior, "¿Qué es Lean Manufacturing? Desmitificando el Concepto Clave de la…
¿Qué es Lean Manufacturing? Desmitificando el Concepto Clave de la Eficiencia Operativa

11 dic 2023

¿Qué es Lean Manufacturing? Desmitificando el Concepto Clave de la Eficiencia Operativa

Introducción Lean Manufacturing, también conocido como el Sistema de Producción Toyota (TPS, por sus siglas en inglés),…

See all articles

Noción de R cuadrado o Coeficiente de Determinación en Análisis de Datos o Data Science

Eric Melillanca Torres

Más artículos de Eric Melillanca Torres

Otros usuarios han visto

Curvas ROC y Precision-Recall (PR)

Descubre cómo el análisis de clúster puede revolucionar tu estrategia de negocios y llevarla al siguiente nivel

¿Cuántos datos necesitamos para que nos digan algo?

Descifrando datos: Diagrama de Caja (Box plot)

Qué tiene en común una regresión lineal y el arbol de decisiones?

Predicción de Precios de Viviendas con Modelos Random Forest en R

Etapes d’un projecte analític en la ciència de dades

La importancia del contexto. Más allá de los datos

Análisis exploratorio de datos: Una aplicación en Fórmula 1

Análisis de Componentes Principales (PCA)

Ver temas

Más artículos de Eric Melillanca Torres

Desperdicio y Retrabajo: Un Obstáculo para la Eficiencia

Enfoque en Procesos: Eliminar Desperdicios en Lean Manufacturing

Pensamiento a Largo Plazo: La Piedra Angular del Lean Manufacturing

Cómo Implementar Buenas Prácticas, Basado en Lean Manufacturing: El Registro de Aprendizajes

Just In Time: Técnica para la Eficiencia y Reducción de Desperdicios

La Eficiencia Visual: Implementación y Beneficios de Kanban en Departamentos Tecnológicos

Adaptando Lean Manufacturing en Servicios: Lecciones desde el Corazón de Toyota hasta la Era Digital

Mi Ruta de Aprendizaje de Lean Manufacturing

Optimizando la Producción: Los Sistemas de Producción y su Impacto Transformador

¿Qué es Lean Manufacturing? Desmitificando el Concepto Clave de la Eficiencia Operativa

Otros usuarios han visto

Curvas ROC y Precision-Recall (PR)

Descubre cómo el análisis de clúster puede revolucionar tu estrategia de negocios y llevarla al siguiente nivel

¿Cuántos datos necesitamos para que nos digan algo?

Descifrando datos: Diagrama de Caja (Box plot)

Qué tiene en común una regresión lineal y el arbol de decisiones?

Predicción de Precios de Viviendas con Modelos Random Forest en R

Etapes d’un projecte analític en la ciència de dades

La importancia del contexto. Más allá de los datos

Análisis exploratorio de datos: Una aplicación en Fórmula 1

Análisis de Componentes Principales (PCA)

Ver temas