Descifrando datos: Diagrama de Caja (Box plot)

Descifrando datos: Diagrama de Caja (Box plot)


Muchas veces, al manejar grandes cantidades de datos, nos limitamos a describirlos mediante parámetros como la media y la desviación estándar. A pesar de la utilidad de estos valores, existen herramientas más completas para obtener una comprensión más profunda de un conjunto de datos, como los diagramas de caja y bigotes.


El diagrama de caja es una herramienta que proporciona rápidamente información clave sobre un conjunto de datos. Aunque es principalmente visual, permite extraer datos esenciales, como cuartiles, dispersión, simetría y posibles valores atípicos. Además, los diagramas de caja son ideales para comparar diferentes conjuntos de datos.


Figura 1. Diagrama de caja y bigotes.


Para construir un diagrama de caja, ordenamos los datos de forma ascendente y determinamos tres valores clave:

  • Q1: Primer cuartil, el valor que abarca el 25% inferior de los datos ordenados.
  • Q2: Segundo cuartil, coincide con la mediana, dividiendo los datos ordenados en dos partes iguales.
  • Q3: Tercer cuartil, el valor que supera el 75% de los datos ordenados.

Estos tres valores forman la caja del diagrama, y la diferencia entre Q3 y Q1 define el rango intercuartílico (RIQ). El bigote inferior del diagrama se extiende hasta 1.5 veces el RIQ desde Q1, cuando este valor es mayor al mínimo de los datos, en el caso contrario el valor del bigote inferior será el valor mínimo del conjunto de datos. De igual manera, se calcula el valor del bigote superior, el cual parte desde Q3 y considera el valor máximo de los datos. Los datos que caen fuera de estos límites se representan con puntos en el diagrama.


Figura 2. Ejemplos de diagrama de caja y bigotes.


Tomando como ejemplo la figura 2, podemos extraer la siguiente información:

  • El 50% de los datos se concentra en la caja, y el 50% restante entre la caja y los extremos de los bigotes (valores máximos y/o mínimos en presencia de valores atípicos). El grupo 1 muestra menor dispersión, evidenciado por una caja y bigotes más pequeños, mientras que el grupo 2 tiene la mayor dispersión.
  • En el grupo 1, la distribución es uniforme, indicando una distribución normal. Para los grupos 2 y 3, las proporciones de las cajas y los bigotes son distintas, especialmente en el grupo 3, sugiriendo distribuciones no normales.
  • En el grupo 3, los datos inferiores a la mediana están más concentrados que los datos superiores, indicando una posible distribución gamma.
  • Los grupos 2 y 3 presentan posibles valores atípicos, destacados como círculos. Estos datos, al estar tan alejados de la caja, necesitan ser examinados por posibles errores de medición o muestreo.
  • Los diagramas de caja permiten comparar grupos; en este caso, el grupo 1 no se cruza con el grupo 3, indicando diferencias entre ellos. El grupo 2 se cruza con todos los datos del grupo 1 y la mayoría del grupo 3, sugiriendo falta de diferencia significativa entre las medias.

En resumen, los diagramas de caja son herramientas excelentes para extraer rápidamente información detallada de grandes conjuntos de datos, revelando su dispersión, simetría y posibles valores atípicos. Además, facilitan la comparación entre grupos de datos.


Actualmente, construir un diagrama de caja y bigotes es una tarea sencilla, pudiéndose obtener con una simple línea de código en programas o herramientas de software como R, Python, o Excel.


#FreddyZambrano #Estadística #AnálisisDeDatos #VisualizaciónDeDatos #CajaYBigotes #DataScience #CienciaDeDatos


Inicia sesión para ver o añadir un comentario.

Más artículos de Freddy Zambrano

Otros usuarios han visto

Ver temas