El coeficiente de correlación normalmente se refiere al coeficiente de correlación de Pearson, escrito como . Mide la dirección y la fuerza de una relación lineal entre dos variables numéricas.
Si es positivo, las variables tienden a aumentar juntas. Si es negativo, una tiende a disminuir mientras la otra aumenta. Si está cerca de , la de Pearson indica que hay poco patrón lineal, no necesariamente que no exista ninguna relación.
La de Pearson es más útil cuando los datos vienen en pares, ambas variables son numéricas y la tendencia que quieres resumir es aproximadamente una línea recta.
Qué te dice el coeficiente de correlación
La de Pearson es una medida estandarizada de cómo varían juntas dos variables. Para una muestra de datos emparejados, la fórmula es
El numerador es positivo cuando las variables tienden a moverse en la misma dirección y negativo cuando tienden a moverse en direcciones opuestas. El denominador reescala ese movimiento conjunto usando la dispersión de cada variable.
Cuando la de Pearson está definida, debe cumplir
Si una variable no tiene ninguna variación, el denominador se vuelve , así que la de Pearson no está definida.
Cómo interpretar valores positivos, negativos y cercanos a cero
Empieza por el signo:
- : asociación lineal positiva
- : asociación lineal negativa
- : no hay asociación lineal
Luego observa la magnitud . Los valores más cercanos a significan que los puntos se mantienen más cerca de un patrón de línea recta. Los valores más cercanos a significan que el patrón lineal es más débil.
Ten cuidado con etiquetas como "débil", "moderada" o "fuerte". Esos cortes dependen del contexto. En un campo, puede ser importante. En otro, puede ser demasiado pequeño para respaldar una decisión.
La costumbre más segura es leer junto con un diagrama de dispersión. El número es un resumen del patrón que ves; no debería reemplazar la imagen.
Ejemplo resuelto: cálculo de
Supón que los datos emparejados son
Primero calcula las medias:
Ahora enumera las desviaciones respecto de las medias:
- Para :
- Para :
Multiplica las desviaciones emparejadas y suma:
Ahora calcula las dos sumas de cuadrados:
Entonces
Esto te dice que hay una asociación lineal positiva fuerte en esta muestra. A medida que aumenta, normalmente también aumenta, y los puntos quedarían bastante cerca de una línea ascendente.
Errores comunes al interpretar la correlación
Tratar la correlación como causalidad
Una correlación alta no demuestra que una variable cause la otra. Un tercer factor puede influir en ambas, o la relación puede ser una coincidencia en los datos observados.
Olvidar que la de Pearson es lineal
La de Pearson solo mide bien la asociación lineal. Una relación curva puede producir una correlación pequeña incluso cuando las variables están claramente relacionadas.
Ignorar los valores atípicos
Un solo punto inusual puede cambiar mucho . Si el diagrama de dispersión tiene un valor atípico, la correlación puede dar una imagen engañosa del patrón general.
Usar la de Pearson cuando el planteamiento no encaja
La de Pearson está diseñada para datos numéricos emparejados y asociación lineal. Si una variable es categórica, o si el patrón es claramente curvo, este coeficiente puede no responder la pregunta que realmente te importa.
Interpretar demasiado un valor cercano a cero
Un valor cercano a significa "poca asociación lineal", no "ningún tipo de relación".
Cuándo se usa el coeficiente de correlación de Pearson
La de Pearson se usa con frecuencia en estadística, ciencia, economía, investigación social y aprendizaje automático como un resumen rápido de datos numéricos emparejados. Es más útil cuando quieres saber si hay un patrón de línea recta antes de pasar a un modelo como la regresión lineal.
En la práctica, un diagrama de dispersión debería venir primero. El coeficiente es un resumen, no un sustituto de observar los datos.
Prueba un problema similar
Toma un conjunto de datos pequeño que ya entiendas, representa los puntos y estima si la tendencia parece positiva, negativa o poco clara antes de calcular . Esa comparación rápida es una de las formas más veloces de desarrollar intuición sobre lo que realmente está diciendo el coeficiente de correlación.
Si quieres ir un paso más allá, explora los mismos datos con una recta de regresión lineal simple. Eso facilita ver cómo se relacionan la correlación y la predicción, aunque no sean lo mismo.
¿Necesitas ayuda con un problema?
Sube tu pregunta y obtén una solución verificada, paso a paso, en segundos.
Abrir GPAI Solver →