La covarianza mide si dos variables tienden a estar por encima o por debajo de sus medias al mismo tiempo. Una covarianza positiva significa que las variables suelen moverse en la misma dirección con respecto a sus promedios. Una covarianza negativa significa que una tiende a estar por encima del promedio cuando la otra está por debajo del promedio.

Para la mayoría de los estudiantes, la idea clave es esta: el signo suele ser más útil que el número bruto. El tamaño de la covarianza depende de las unidades de ambas variables, así que por sí sola no es una escala limpia de intensidad.

Fórmula de la covarianza para muestras y poblaciones

Para una muestra de datos emparejados, una fórmula común es

sxy=1n1i=1n(xixˉ)(yiyˉ)s_{xy} = \frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})

Aquí xˉ\bar{x} y yˉ\bar{y} son las medias muestrales. Cada producto (xixˉ)(yiyˉ)(x_i-\bar{x})(y_i-\bar{y}) es positivo cuando el par cae del mismo lado de ambas medias, y negativo cuando el par cae en lados opuestos.

Si trabajas con una población completa en lugar de una muestra, el denominador normalmente es NN en vez de n1n-1:

Cov(X,Y)=1Ni=1N(xiμx)(yiμy)\mathrm{Cov}(X,Y) = \frac{1}{N}\sum_{i=1}^N (x_i-\mu_x)(y_i-\mu_y)

Usa la versión muestral para datos de muestra y la versión poblacional solo cuando los datos representan toda la población que quieres describir.

Cómo interpretar el signo de la covarianza

La covarianza se construye a partir de desviaciones emparejadas respecto de la media.

Si ambas desviaciones son positivas, su producto es positivo. Si ambas son negativas, su producto también es positivo. Esos pares hacen subir la covarianza porque las variables se están moviendo juntas con respecto a sus centros.

Si una desviación es positiva y la otra es negativa, el producto es negativo. Esos pares hacen bajar la covarianza porque las variables se están moviendo en direcciones opuestas.

Así que la covarianza es, en realidad, un promedio del “movimiento conjunto alrededor de la media”.

Ejemplo resuelto: horas de estudio y calificaciones de un cuestionario

Supón que una muestra pequeña registra horas de estudio y calificaciones de un cuestionario:

(1,70), (2,80), (3,90)(1,70),\ (2,80),\ (3,90)

Primero calcula las medias:

xˉ=1+2+33=2\bar{x} = \frac{1+2+3}{3} = 2 yˉ=70+80+903=80\bar{y} = \frac{70+80+90}{3} = 80

Ahora calcula las desviaciones y sus productos:

  • Para (1,70)(1,70): (12)(7080)=(1)(10)=10(1-2)(70-80) = (-1)(-10) = 10
  • Para (2,80)(2,80): (22)(8080)=0(2-2)(80-80) = 0
  • Para (3,90)(3,90): (32)(9080)=(1)(10)=10(3-2)(90-80) = (1)(10) = 10

Suma los productos:

10+0+10=2010 + 0 + 10 = 20

Como esta es una covarianza muestral, divide entre n1=2n-1 = 2:

sxy=202=10s_{xy} = \frac{20}{2} = 10

La covarianza es positiva, así que las variables se mueven juntas en esta muestra. Aquí, más tiempo de estudio va acompañado de calificaciones más altas en el cuestionario.

La advertencia importante es que 1010 no es una escala universal de intensidad. Su tamaño depende de las unidades aquí: horas por puntos de calificación. Si cambiaras la escala de medición, la covarianza también cambiaría, incluso si el patrón general siguiera siendo parecido.

Covarianza vs. correlación: la diferencia clave

La covarianza y la correlación están muy relacionadas, pero responden preguntas ligeramente distintas.

La covarianza te dice la dirección del movimiento conjunto y conserva la escala original. La correlación estandariza esa relación dividiendo la covarianza entre las desviaciones estándar, cuando esas desviaciones estándar son distintas de cero:

r=sxysxsyr = \frac{s_{xy}}{s_x s_y}

Por eso la correlación no tiene unidades y es más fácil de comparar entre distintos conjuntos de datos. Su valor se mantiene entre 1-1 y 11, mientras que la covarianza no tiene un rango fijo.

En la práctica:

  • Usa la covarianza cuando te importe la variación conjunta en las unidades originales o cuando aparezca dentro de un cálculo más grande, como una matriz de covarianza.
  • Usa la correlación cuando quieras un resumen sin unidades que sea más fácil de comparar entre conjuntos de datos.

Errores comunes con la covarianza

Tratar una covarianza grande como automáticamente fuerte

Una covarianza de 100100 no es automáticamente “más fuerte” que una covarianza de 55. Puede que las variables simplemente estén medidas en escalas más grandes.

Confundir las fórmulas de muestra y población

Si tus datos son una muestra, dividir entre n1n-1 es lo habitual. Si tus datos son toda la población de interés, dividir entre NN es la versión poblacional.

Pensar que una covarianza cero significa que no hay ninguna relación

Una covarianza cercana a 00 significa poca covariación lineal alrededor de las medias. No descarta una relación no lineal.

Si dos variables son independientes y la covarianza existe, entonces la covarianza es 00. Lo contrario no siempre es cierto.

Interpretar la covarianza como causalidad

La covarianza solo describe cómo varían juntas las variables. No explica por qué varían juntas.

Cuándo se usa la covarianza

La covarianza aparece en estadística, finanzas, aprendizaje automático y análisis de datos siempre que se necesite estudiar variables emparejadas en conjunto.

Es especialmente común en las matrices de covarianza, donde cada entrada resume cómo dos variables varían conjuntamente. Eso importa en áreas como el riesgo de cartera, el análisis de componentes principales y el modelado multivariable.

Prueba un problema similar

Toma tres o cuatro valores emparejados, calcula las dos medias y luego multiplica las desviaciones emparejadas antes de promediarlas. Esa rutina hace que el signo de la covarianza se vuelva mucho más concreto.

Si quieres dar el siguiente paso, compara los mismos datos con el coeficiente de correlación y observa cómo la estandarización de las escalas cambia la interpretación.

¿Necesitas ayuda con un problema?

Sube tu pregunta y obtén una solución verificada, paso a paso, en segundos.

Abrir GPAI Solver →