¿Qué es la correlación?
No es causalidad.
Los experimentos te permiten hablar sobre causa y efecto. Sin ellos, todo lo que tienes es correlación. ¿Qué es la correlación?
NO ES UNA CAUSALIDAD. (!!!!!)
Seguro, ya nos debes haber escuchado a los estadísticos gritándote eso. Pero, ¿qué es la correlación? Es cuando las variables de un conjunto de datos parece que se mueven juntas de alguna manera.
Dos variables X e Y están correlacionadas si parecen moverse juntas de alguna manera.
Por ejemplo, “cuando X es más alto, Y tiende a ser más alto” (esto se llama correlación positiva) o “cuando X es más alto, Y tiende a ser más bajo” (esto se llama correlación negativa).
Gracias, Wikipedia.
Si estás buscando la fórmula para la correlación (de la población), tu amigo Wikipedia tiene todo lo que necesitas. Pero si eso querías, ¿por qué no fuiste directamente allá? ¿Por qué estás aquí? Ah, ¿quieres la explicación intuitiva? Muy bien. Aquí tienes una colina:
A la izquierda, la altura y la distancia (de izquierda a derecha) están correlacionadas positivamente. Cuando uno sube, también lo hace el otro. A la derecha, la altura y la distancia están correlacionadas negativamente.
Cuando la mayoría de las personas escuchan la palabra correlación, tienden a pensar en una correlación lineal perfecta: dar un paso horizontal (X) hacia la derecha de la colina de la foto de arriba, te da el mismo cambio de altitud (Y) en todas partes de la misma pendiente. Siempre que subas de izquierda a derecha (correlación positiva), no habrá ninguna sorpresa.
Ten en cuenta que subir es positivo solo si vas de izquierda a derecha, de la misma manera que lees en español. Si te acercas a la colina por la derecha, los estadísticos no sabrán qué hacer contigo. Supongo que lo que los estadísticos están tratando de decirte es que nunca vayas a empezar una caminata desde la derecha. Eso solo nos confundirá.
Pero si caminas correctamente, entonces "arriba" es "positivo".
Correlación lineal imperfecta
En realidad, esta colina no es perfecta, por lo que la magnitud de la correlación entre la altura y la distancia será inferior al 100%. (Verás un signo +/- al frente dependiendo de si estamos subiendo o bajando, por lo que la correlación vive entre -1 y 1. Eso es porque su fórmula (pegada de Wikipedia arriba) se divide por la desviación estándar, de tal forma que se elimina la magnitud de la dispersión de cada variable. Sin ese denominador, tendrías dificultades para ver que la fuerza de la relación es la misma independientemente de si mides la altura en pulgadas o centímetros. Siempre que veas escala / normalización en las estadísticas, generalmente está ahí para ayudarte a comparar peras y manzanas que se midieron en diferentes unidades.)
Variables no correlacionadas
¿Cómo se ve una correlación de cero? ¿Estás pensando en una nube desordenada sin patrones discernibles en su interior? Algo como:
Sin duda, eso funciona. ¿Sabes cómo sé que X e Y realmente no tienen nada que ver el uno con el otro? Porque los creé de esa manera. Si deseas simular una gráfica similar de dos variables no correlacionadas, intenta ejecutar este fragmento de código básico en R en línea:
X <- runif (100) # 100 números aleatorios regulares entre 0 y 1
Y <- rnorm (100) # Otros 100 números aleatorios la curva de campana
Plot(X, Y, main = "X e Y no tienen nada que ver entre sí")
Pero hay otra forma. Cuanto menos lineal sea la relación, más cercana será su correlación a cero. De hecho, si miras la colina como un todo (no solo una de sus pendientes a la vez), encontrarás una correlación cero a pesar de que existe una relación clara entre la altura y la distancia (obvio, es una colina).
X <- seq (-1, 1, 0.01) # Ir de -1 a 1 en incrementos de 0.01
Y <- -X ^ 2 # Fórmula secreta para la colina ideal
Plot(X, Y, main = "La correlación lineal es cero")
print (cor (X, Y)) # Verifica que la correlación sea cero
Correlación no es causalidad
La presencia de una correlación lineal significa que los datos se mueven juntos de una manera algo lineal. No significa que X cause Y (o al revés). Ambos podrían estar moviéndose debido a algo completamente diferente.
¿Quieres una prueba de esto? Imagínate que tu y yo invertimos en las mismas acciones. Llamémoslo ZOOM, porque me parece gracioso que los inversores de la pandemia tuvieran la intención de comprar ZM (la empresa de comunicaciones por video) pero accidentalmente compraron ZOOM (el micro-límite chino) en su lugar, lo que llevó a un aumento del 900% en el precio del Zoom equivocado mientras que el ZM real ni siquiera se duplicó. * sécate las lágrimas de risa * De todos modos, en honor a esa comedia, imagina que tú y yo invertimos una pequeña cantidad en ZOOM.
Dado que ambos tenemos ZOOM, el valor de tu cartera de acciones ($ X) está correlacionado con el valor de mi cartera de acciones ($ Y). Si el ZOOM aumenta, ambos nos beneficiamos. Eso no significa que el valor de mi cartera cause el valor de tu cartera. No puedo deshacerme de todas mis acciones de una manera que te afecte totalmente: si el valor de mi cartera de repente se vuelve cero, porque vendo todo para comprar un montón de dulces, eso no significa que tu cartera de acciones ahora no tenga valor.
Muchos tomadores de decisiones se caen de bruces precisamente por esta razón. Al ver dos variables correlacionadas, invierten recursos en afectar la cosa 1 para intentar mover la cosa 2… y los resultados no son los que esperaban. Sin un experimento, en primer lugar no tenían por qué asumir que la cosa 1 movía la cosa 2.
La correlación no es causalidad.
El hermoso término "correlación espuria" se refiere a la situación en la que no existe una relación causal directa entre dos variables correlacionadas. Su correlación puede deberse a una coincidencia o al efecto de una tercera variable (generalmente invisible, también conocida como "latente") que influye en ambos. Nunca tomes la correlación al pie de la letra: en datos, las cosas a menudo no son lo que parecen.
Para divertirte con correlaciones falsas, visita el sitio web del cual proviene este excelente ejemplo.
Para resumir, si quieres hablar sobre causas y efectos, necesitas un experimento (¡real!). Sin experimentos, todo lo que tienes es correlación y para muchas decisiones, las que se basan en el razonamiento causal, eso no son útiles.
PD ¿Qué es la regresión?
Es poner líneas a través de cosas. Piensa en ello como, “¡Oh, hey! Estas cosas están correlacionadas, así que usemos una para predecir la otra… ”
Obtén más información sobre ciencia de datos e inteligencia artificial en español aquí.
Traducido por Carlos Secada del original por Cassie Kozyrkov