El coeficiente de correlación normalmente se refiere al coeficiente de correlación de Pearson, escrito como rr. Mide la dirección y la fuerza de una relación lineal entre dos variables numéricas.

Si rr es positivo, las variables tienden a aumentar juntas. Si rr es negativo, una tiende a disminuir mientras la otra aumenta. Si rr está cerca de 00, la rr de Pearson indica que hay poco patrón lineal, no necesariamente que no exista ninguna relación.

La rr de Pearson es más útil cuando los datos vienen en pares, ambas variables son numéricas y la tendencia que quieres resumir es aproximadamente una línea recta.

Qué te dice el coeficiente de correlación

La rr de Pearson es una medida estandarizada de cómo varían juntas dos variables. Para una muestra de datos emparejados, la fórmula es

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \sum_{i=1}^n (y_i-\bar{y})^2}}

El numerador es positivo cuando las variables tienden a moverse en la misma dirección y negativo cuando tienden a moverse en direcciones opuestas. El denominador reescala ese movimiento conjunto usando la dispersión de cada variable.

Cuando la rr de Pearson está definida, debe cumplir

1r1-1 \le r \le 1

Si una variable no tiene ninguna variación, el denominador se vuelve 00, así que la rr de Pearson no está definida.

Cómo interpretar valores positivos, negativos y cercanos a cero

Empieza por el signo:

  • r>0r > 0: asociación lineal positiva
  • r<0r < 0: asociación lineal negativa
  • r=0r = 0: no hay asociación lineal

Luego observa la magnitud r|r|. Los valores más cercanos a 11 significan que los puntos se mantienen más cerca de un patrón de línea recta. Los valores más cercanos a 00 significan que el patrón lineal es más débil.

Ten cuidado con etiquetas como "débil", "moderada" o "fuerte". Esos cortes dependen del contexto. En un campo, r=0.3r = 0.3 puede ser importante. En otro, puede ser demasiado pequeño para respaldar una decisión.

La costumbre más segura es leer rr junto con un diagrama de dispersión. El número es un resumen del patrón que ves; no debería reemplazar la imagen.

Ejemplo resuelto: cálculo de r=0.9r = 0.9

Supón que los datos emparejados son

(1,2), (2,3), (3,5), (4,4), (5,6)(1,2),\ (2,3),\ (3,5),\ (4,4),\ (5,6)

Primero calcula las medias:

xˉ=1+2+3+4+55=3\bar{x} = \frac{1+2+3+4+5}{5} = 3 yˉ=2+3+5+4+65=4\bar{y} = \frac{2+3+5+4+6}{5} = 4

Ahora enumera las desviaciones respecto de las medias:

  • Para xx: 2,1,0,1,2-2, -1, 0, 1, 2
  • Para yy: 2,1,1,0,2-2, -1, 1, 0, 2

Multiplica las desviaciones emparejadas y suma:

(2)(2)+(1)(1)+(0)(1)+(1)(0)+(2)(2)=4+1+0+0+4=9(-2)(-2) + (-1)(-1) + (0)(1) + (1)(0) + (2)(2) = 4 + 1 + 0 + 0 + 4 = 9

Ahora calcula las dos sumas de cuadrados:

(xixˉ)2=4+1+0+1+4=10\sum (x_i-\bar{x})^2 = 4+1+0+1+4 = 10 (yiyˉ)2=4+1+1+0+4=10\sum (y_i-\bar{y})^2 = 4+1+1+0+4 = 10

Entonces

r=91010=910=0.9r = \frac{9}{\sqrt{10 \cdot 10}} = \frac{9}{10} = 0.9

Esto te dice que hay una asociación lineal positiva fuerte en esta muestra. A medida que xx aumenta, yy normalmente también aumenta, y los puntos quedarían bastante cerca de una línea ascendente.

Errores comunes al interpretar la correlación

Tratar la correlación como causalidad

Una correlación alta no demuestra que una variable cause la otra. Un tercer factor puede influir en ambas, o la relación puede ser una coincidencia en los datos observados.

Olvidar que la rr de Pearson es lineal

La rr de Pearson solo mide bien la asociación lineal. Una relación curva puede producir una correlación pequeña incluso cuando las variables están claramente relacionadas.

Ignorar los valores atípicos

Un solo punto inusual puede cambiar mucho rr. Si el diagrama de dispersión tiene un valor atípico, la correlación puede dar una imagen engañosa del patrón general.

Usar la rr de Pearson cuando el planteamiento no encaja

La rr de Pearson está diseñada para datos numéricos emparejados y asociación lineal. Si una variable es categórica, o si el patrón es claramente curvo, este coeficiente puede no responder la pregunta que realmente te importa.

Interpretar demasiado un valor cercano a cero

Un valor cercano a 00 significa "poca asociación lineal", no "ningún tipo de relación".

Cuándo se usa el coeficiente de correlación de Pearson

La rr de Pearson se usa con frecuencia en estadística, ciencia, economía, investigación social y aprendizaje automático como un resumen rápido de datos numéricos emparejados. Es más útil cuando quieres saber si hay un patrón de línea recta antes de pasar a un modelo como la regresión lineal.

En la práctica, un diagrama de dispersión debería venir primero. El coeficiente es un resumen, no un sustituto de observar los datos.

Prueba un problema similar

Toma un conjunto de datos pequeño que ya entiendas, representa los puntos y estima si la tendencia parece positiva, negativa o poco clara antes de calcular rr. Esa comparación rápida es una de las formas más veloces de desarrollar intuición sobre lo que realmente está diciendo el coeficiente de correlación.

Si quieres ir un paso más allá, explora los mismos datos con una recta de regresión lineal simple. Eso facilita ver cómo se relacionan la correlación y la predicción, aunque no sean lo mismo.

¿Necesitas ayuda con un problema?

Sube tu pregunta y obtén una solución verificada, paso a paso, en segundos.

Abrir GPAI Solver →