La covariance mesure si deux variables ont tendance à être ensemble au-dessus ou au-dessous de leurs moyennes. Une covariance positive signifie que les variables évoluent généralement dans le même sens par rapport à leurs moyennes. Une covariance négative signifie que l'une a tendance à être au-dessus de la moyenne quand l'autre est au-dessous.

Pour la plupart des étudiants, l'idée essentielle est la suivante : le signe est généralement plus utile que la valeur brute. La taille de la covariance dépend des unités des deux variables, donc elle ne constitue pas à elle seule une mesure claire de l'intensité.

Formule de la covariance pour un échantillon et une population

Pour un échantillon de données appariées, une formule courante est :

sxy=1n1i=1n(xixˉ)(yiyˉ)s_{xy} = \frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})

Ici, xˉ\bar{x} et yˉ\bar{y} sont les moyennes de l'échantillon. Chaque produit (xixˉ)(yiyˉ)(x_i-\bar{x})(y_i-\bar{y}) est positif lorsque la paire se trouve du même côté des deux moyennes, et négatif lorsqu'elle se trouve de côtés opposés.

Si vous travaillez avec une population complète plutôt qu'un échantillon, le dénominateur est généralement NN au lieu de n1n-1 :

Cov(X,Y)=1Ni=1N(xiμx)(yiμy)\mathrm{Cov}(X,Y) = \frac{1}{N}\sum_{i=1}^N (x_i-\mu_x)(y_i-\mu_y)

Utilisez la version pour échantillon avec des données d'échantillon, et la version pour population seulement lorsque les données représentent toute la population que vous voulez décrire.

Comment lire le signe de la covariance

La covariance est construite à partir des écarts appariés à la moyenne.

Si les deux écarts sont positifs, leur produit est positif. S'ils sont tous les deux négatifs, leur produit est aussi positif. Ces paires font augmenter la covariance, car les variables évoluent ensemble par rapport à leur centre.

Si un écart est positif et l'autre négatif, le produit est négatif. Ces paires font diminuer la covariance, car les variables évoluent en sens opposé.

Ainsi, la covariance est en réalité une moyenne du « mouvement conjoint autour de la moyenne ».

Exemple détaillé : heures d'étude et notes à un quiz

Supposons qu'un petit échantillon enregistre des heures d'étude et des notes à un quiz :

(1,70), (2,80), (3,90)(1,70),\ (2,80),\ (3,90)

Commençons par trouver les moyennes :

xˉ=1+2+33=2\bar{x} = \frac{1+2+3}{3} = 2 yˉ=70+80+903=80\bar{y} = \frac{70+80+90}{3} = 80

Calculons maintenant les écarts et leurs produits :

  • Pour (1,70)(1,70) : (12)(7080)=(1)(10)=10(1-2)(70-80) = (-1)(-10) = 10
  • Pour (2,80)(2,80) : (22)(8080)=0(2-2)(80-80) = 0
  • Pour (3,90)(3,90) : (32)(9080)=(1)(10)=10(3-2)(90-80) = (1)(10) = 10

Additionnons les produits :

10+0+10=2010 + 0 + 10 = 20

Comme il s'agit d'une covariance d'échantillon, on divise par n1=2n-1 = 2 :

sxy=202=10s_{xy} = \frac{20}{2} = 10

La covariance est positive, donc les variables évoluent ensemble dans cet échantillon. Ici, plus de temps d'étude va avec de meilleures notes au quiz.

La mise en garde importante est que 1010 n'est pas une échelle universelle d'intensité. Sa taille dépend ici des unités : heures multipliées par points de score. Si vous changiez l'échelle de mesure, la covariance changerait aussi, même si la tendance générale restait similaire.

Covariance et corrélation : la différence essentielle

La covariance et la corrélation sont étroitement liées, mais elles répondent à des questions légèrement différentes.

La covariance indique la direction du mouvement conjoint et conserve l'échelle d'origine. La corrélation standardise cette relation en divisant la covariance par les écarts-types, lorsque ces écarts-types sont non nuls :

r=sxysxsyr = \frac{s_{xy}}{s_x s_y}

C'est pourquoi la corrélation est sans unité et plus facile à comparer entre différents jeux de données. Sa valeur reste comprise entre 1-1 et 11, tandis que la covariance n'a pas d'intervalle fixe.

En pratique :

  • Utilisez la covariance lorsque vous vous intéressez à la variation conjointe dans les unités d'origine ou lorsqu'elle apparaît dans un calcul plus large, comme une matrice de covariance.
  • Utilisez la corrélation lorsque vous voulez un résumé sans unité, plus facile à comparer entre différents jeux de données.

Erreurs fréquentes avec la covariance

Considérer automatiquement une grande covariance comme forte

Une covariance de 100100 n'est pas automatiquement « plus forte » qu'une covariance de 55. Les variables peuvent simplement être mesurées sur des échelles plus grandes.

Confondre les formules pour échantillon et pour population

Si vos données forment un échantillon, diviser par n1n-1 est la règle standard. Si vos données représentent toute la population d'intérêt, diviser par NN correspond à la version population.

Penser qu'une covariance nulle signifie aucune relation

Une covariance proche de 00 signifie qu'il y a peu de co-mouvement linéaire autour des moyennes. Cela n'exclut pas une relation non linéaire.

Si deux variables sont indépendantes et que la covariance existe, alors la covariance vaut 00. L'inverse n'est pas toujours vrai.

Interpréter la covariance comme une causalité

La covariance décrit seulement la façon dont les variables varient ensemble. Elle n'explique pas pourquoi elles varient ensemble.

Quand utilise-t-on la covariance ?

La covariance apparaît en statistique, en finance, en machine learning et en analyse de données chaque fois que des variables appariées doivent être étudiées ensemble.

Elle est particulièrement courante dans les matrices de covariance, où chaque entrée résume la façon dont deux variables varient conjointement. C'est important dans des domaines comme le risque de portefeuille, l'analyse en composantes principales et la modélisation multivariable.

Essayez un problème similaire

Prenez trois ou quatre valeurs appariées, calculez les deux moyennes, puis multipliez les écarts appariés avant d'en faire la moyenne. Cette seule procédure rend le signe de la covariance beaucoup plus concret.

Si vous voulez aller plus loin, comparez les mêmes données avec le coefficient de corrélation et observez comment la standardisation des échelles change l'interprétation.

Besoin d'aide pour un problème ?

Envoyez votre question et obtenez une solution vérifiée, étape par étape, en quelques secondes.

Ouvrir GPAI Solver →