Coefficient de corrélation — r de Pearson et interprétation

Le coefficient de corrélation désigne généralement le coefficient de corrélation de Pearson, noté $r$ . Il mesure la direction et la force d’une relation linéaire entre deux variables numériques.

Si $r$ est positif, les variables ont tendance à augmenter ensemble. Si $r$ est négatif, l’une a tendance à diminuer quand l’autre augmente. Si $r$ est proche de $0$ , le $r$ de Pearson indique qu’il y a peu de structure linéaire, pas nécessairement aucune relation.

Le $r$ de Pearson est surtout utile lorsque les données vont par paires, que les deux variables sont numériques et qu’une tendance en ligne droite est le type de structure que vous voulez résumer.

Ce que vous dit le coefficient de corrélation

Le $r$ de Pearson est une mesure standardisée de la façon dont deux variables varient ensemble. Pour un échantillon de données appariées, la formule est

r = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \sum_{i=1}^n (y_i-\bar{y})^2}}

Le numérateur est positif lorsque les variables ont tendance à évoluer dans le même sens, et négatif lorsqu’elles ont tendance à évoluer en sens opposés. Le dénominateur remet cette variation conjointe à l’échelle à l’aide de la dispersion de chaque variable.

Lorsque le $r$ de Pearson est défini, il vérifie toujours

-1 \le r \le 1

Si l’une des variables ne varie pas du tout, le dénominateur devient $0$ , donc le $r$ de Pearson n’est pas défini.

Comment interpréter les valeurs positives, négatives et proches de zéro

Commencez par le signe :

$r > 0$ : association linéaire positive
$r < 0$ : association linéaire négative
$r = 0$ : absence d’association linéaire

Regardez ensuite la valeur absolue $|r|$ . Des valeurs plus proches de $1$ signifient que les points restent plus près d’une structure en ligne droite. Des valeurs plus proches de $0$ signifient que la structure linéaire est plus faible.

Faites attention aux étiquettes comme « faible », « modérée » ou « forte ». Ces seuils dépendent du contexte. Dans un domaine, $r = 0.3$ peut être important. Dans un autre, cela peut être trop faible pour appuyer une décision.

L’habitude la plus sûre consiste à lire $r$ en même temps qu’un nuage de points. Le nombre résume la structure que vous voyez ; il ne doit pas remplacer le graphique.

Exemple détaillé : calcul de $r = 0.9$

Supposons que les données appariées soient

(1,2),\ (2,3),\ (3,5),\ (4,4),\ (5,6)

Calculez d’abord les moyennes :

\bar{x} = \frac{1+2+3+4+5}{5} = 3

\bar{y} = \frac{2+3+5+4+6}{5} = 4

Listez maintenant les écarts aux moyennes :

Pour $x$ : $-2, -1, 0, 1, 2$
Pour $y$ : $-2, -1, 1, 0, 2$

Multipliez les écarts appariés puis additionnez :

(-2)(-2) + (-1)(-1) + (0)(1) + (1)(0) + (2)(2) = 4 + 1 + 0 + 0 + 4 = 9

Calculez maintenant les deux sommes des carrés :

\sum (x_i-\bar{x})^2 = 4+1+0+1+4 = 10

\sum (y_i-\bar{y})^2 = 4+1+1+0+4 = 10

Donc

r = \frac{9}{\sqrt{10 \cdot 10}} = \frac{9}{10} = 0.9

Cela vous indique qu’il existe une forte association linéaire positive dans cet échantillon. Quand $x$ augmente, $y$ augmente généralement aussi, et les points seraient assez proches d’une droite croissante.

Erreurs fréquentes dans l’interprétation de la corrélation

Confondre corrélation et causalité

Une corrélation élevée ne prouve pas qu’une variable cause l’autre. Un troisième facteur peut influencer les deux, ou la relation peut être simplement fortuite dans les données observées.

Oublier que le $r$ de Pearson est linéaire

Le $r$ de Pearson ne mesure bien que l’association linéaire. Une relation courbe peut produire une faible corrélation même lorsque les variables sont clairement liées.

Ignorer les valeurs aberrantes

Un seul point inhabituel peut beaucoup modifier $r$ . Si le nuage de points contient une valeur aberrante, la corrélation peut donner une image trompeuse de la structure d’ensemble.

Utiliser le $r$ de Pearson quand le cadre ne convient pas

Le $r$ de Pearson est conçu pour des données numériques appariées et une association linéaire. Si l’une des variables est catégorielle, ou si la structure est clairement courbe, ce coefficient peut ne pas répondre à la question qui vous intéresse vraiment.

Surinterpréter une valeur proche de zéro

Une valeur proche de $0$ signifie « faible association linéaire », pas « absence de toute relation ».

Quand utilise-t-on le coefficient de corrélation de Pearson ?

Le $r$ de Pearson est couramment utilisé en statistique, en sciences, en économie, en recherche en sciences sociales et en apprentissage automatique comme résumé rapide de données numériques appariées. Il est particulièrement utile lorsque vous voulez savoir si une structure en ligne droite est présente avant de passer à un modèle comme la régression linéaire.

En pratique, un nuage de points devrait venir en premier. Le coefficient est un résumé, pas un substitut à l’examen des données.

Essayez un problème similaire

Prenez un petit jeu de données que vous comprenez déjà, placez les points sur un graphique et estimez si la tendance semble positive, négative ou peu claire avant de calculer $r$ . Cette comparaison rapide est l’un des moyens les plus efficaces de développer une intuition de ce que dit réellement le coefficient de corrélation.

Si vous voulez aller un peu plus loin, étudiez les mêmes données avec une droite de régression linéaire simple. Cela permet de mieux voir comment corrélation et prédiction sont liées, sans être identiques.

Questions fréquentes

Que mesure le coefficient de corrélation ?: Le coefficient de corrélation de Pearson $r$ mesure la direction et la force d’une relation linéaire entre deux variables numériques.
Que signifie une corrélation de $0$ ?: Cela signifie qu’aucune association linéaire n’est détectée par le $r$ de Pearson. Cela ne veut pas automatiquement dire qu’il n’existe aucune relation.
La corrélation implique-t-elle la causalité ?: Non. Même une corrélation élevée ne montre pas à elle seule qu’une variable cause l’autre.

Besoin d'aide pour un problème ?

Envoyez votre question et obtenez une solution vérifiée, étape par étape, en quelques secondes.

Ouvrir GPAI Solver →