Covariance — formule, signification et différence avec la corrélation

La covariance mesure si deux variables ont tendance à être ensemble au-dessus ou au-dessous de leurs moyennes. Une covariance positive signifie que les variables évoluent généralement dans le même sens par rapport à leurs moyennes. Une covariance négative signifie que l'une a tendance à être au-dessus de la moyenne quand l'autre est au-dessous.

Pour la plupart des étudiants, l'idée essentielle est la suivante : le signe est généralement plus utile que la valeur brute. La taille de la covariance dépend des unités des deux variables, donc elle ne constitue pas à elle seule une mesure claire de l'intensité.

Formule de la covariance pour un échantillon et une population

Pour un échantillon de données appariées, une formule courante est :

s_{xy} = \frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})

Ici, $\bar{x}$ et $\bar{y}$ sont les moyennes de l'échantillon. Chaque produit $(x_i-\bar{x})(y_i-\bar{y})$ est positif lorsque la paire se trouve du même côté des deux moyennes, et négatif lorsqu'elle se trouve de côtés opposés.

Si vous travaillez avec une population complète plutôt qu'un échantillon, le dénominateur est généralement $N$ au lieu de $n-1$ :

\mathrm{Cov}(X,Y) = \frac{1}{N}\sum_{i=1}^N (x_i-\mu_x)(y_i-\mu_y)

Utilisez la version pour échantillon avec des données d'échantillon, et la version pour population seulement lorsque les données représentent toute la population que vous voulez décrire.

Comment lire le signe de la covariance

La covariance est construite à partir des écarts appariés à la moyenne.

Si les deux écarts sont positifs, leur produit est positif. S'ils sont tous les deux négatifs, leur produit est aussi positif. Ces paires font augmenter la covariance, car les variables évoluent ensemble par rapport à leur centre.

Si un écart est positif et l'autre négatif, le produit est négatif. Ces paires font diminuer la covariance, car les variables évoluent en sens opposé.

Ainsi, la covariance est en réalité une moyenne du « mouvement conjoint autour de la moyenne ».

Exemple détaillé : heures d'étude et notes à un quiz

Supposons qu'un petit échantillon enregistre des heures d'étude et des notes à un quiz :

(1,70),\ (2,80),\ (3,90)

Commençons par trouver les moyennes :

\bar{x} = \frac{1+2+3}{3} = 2

\bar{y} = \frac{70+80+90}{3} = 80

Calculons maintenant les écarts et leurs produits :

Pour $(1,70)$ : $(1-2)(70-80) = (-1)(-10) = 10$
Pour $(2,80)$ : $(2-2)(80-80) = 0$
Pour $(3,90)$ : $(3-2)(90-80) = (1)(10) = 10$

Additionnons les produits :

10 + 0 + 10 = 20

Comme il s'agit d'une covariance d'échantillon, on divise par $n-1 = 2$ :

s_{xy} = \frac{20}{2} = 10

La covariance est positive, donc les variables évoluent ensemble dans cet échantillon. Ici, plus de temps d'étude va avec de meilleures notes au quiz.

La mise en garde importante est que $10$ n'est pas une échelle universelle d'intensité. Sa taille dépend ici des unités : heures multipliées par points de score. Si vous changiez l'échelle de mesure, la covariance changerait aussi, même si la tendance générale restait similaire.

Covariance et corrélation : la différence essentielle

La covariance et la corrélation sont étroitement liées, mais elles répondent à des questions légèrement différentes.

La covariance indique la direction du mouvement conjoint et conserve l'échelle d'origine. La corrélation standardise cette relation en divisant la covariance par les écarts-types, lorsque ces écarts-types sont non nuls :

r = \frac{s_{xy}}{s_x s_y}

C'est pourquoi la corrélation est sans unité et plus facile à comparer entre différents jeux de données. Sa valeur reste comprise entre $-1$ et $1$ , tandis que la covariance n'a pas d'intervalle fixe.

En pratique :

Utilisez la covariance lorsque vous vous intéressez à la variation conjointe dans les unités d'origine ou lorsqu'elle apparaît dans un calcul plus large, comme une matrice de covariance.
Utilisez la corrélation lorsque vous voulez un résumé sans unité, plus facile à comparer entre différents jeux de données.

Erreurs fréquentes avec la covariance

Considérer automatiquement une grande covariance comme forte

Une covariance de $100$ n'est pas automatiquement « plus forte » qu'une covariance de $5$ . Les variables peuvent simplement être mesurées sur des échelles plus grandes.

Confondre les formules pour échantillon et pour population

Si vos données forment un échantillon, diviser par $n-1$ est la règle standard. Si vos données représentent toute la population d'intérêt, diviser par $N$ correspond à la version population.

Penser qu'une covariance nulle signifie aucune relation

Une covariance proche de $0$ signifie qu'il y a peu de co-mouvement linéaire autour des moyennes. Cela n'exclut pas une relation non linéaire.

Si deux variables sont indépendantes et que la covariance existe, alors la covariance vaut $0$ . L'inverse n'est pas toujours vrai.

Interpréter la covariance comme une causalité

La covariance décrit seulement la façon dont les variables varient ensemble. Elle n'explique pas pourquoi elles varient ensemble.

Quand utilise-t-on la covariance ?

La covariance apparaît en statistique, en finance, en machine learning et en analyse de données chaque fois que des variables appariées doivent être étudiées ensemble.

Elle est particulièrement courante dans les matrices de covariance, où chaque entrée résume la façon dont deux variables varient conjointement. C'est important dans des domaines comme le risque de portefeuille, l'analyse en composantes principales et la modélisation multivariable.

Essayez un problème similaire

Prenez trois ou quatre valeurs appariées, calculez les deux moyennes, puis multipliez les écarts appariés avant d'en faire la moyenne. Cette seule procédure rend le signe de la covariance beaucoup plus concret.

Si vous voulez aller plus loin, comparez les mêmes données avec le coefficient de corrélation et observez comment la standardisation des échelles change l'interprétation.

Questions fréquentes

Que mesure la covariance ?: La covariance mesure si deux variables ont tendance à être ensemble au-dessus de leur moyenne, ensemble au-dessous de leur moyenne, ou à évoluer en sens opposé.
La covariance peut-elle être négative ?: Oui. Une covariance négative signifie que des valeurs plus élevées d'une variable ont tendance à être associées à des valeurs plus faibles de l'autre, par rapport à leurs moyennes.
Quelle est la différence entre la covariance et la corrélation ?: La covariance conserve les unités et l'échelle d'origine, tandis que la corrélation standardise la relation pour donner un résultat sans unité, plus facile à comparer entre différents jeux de données.

Besoin d'aide pour un problème ?

Envoyez votre question et obtenez une solution vérifiée, étape par étape, en quelques secondes.

Ouvrir GPAI Solver →