Le coefficient de corrélation désigne généralement le coefficient de corrélation de Pearson, noté . Il mesure la direction et la force d’une relation linéaire entre deux variables numériques.
Si est positif, les variables ont tendance à augmenter ensemble. Si est négatif, l’une a tendance à diminuer quand l’autre augmente. Si est proche de , le de Pearson indique qu’il y a peu de structure linéaire, pas nécessairement aucune relation.
Le de Pearson est surtout utile lorsque les données vont par paires, que les deux variables sont numériques et qu’une tendance en ligne droite est le type de structure que vous voulez résumer.
Ce que vous dit le coefficient de corrélation
Le de Pearson est une mesure standardisée de la façon dont deux variables varient ensemble. Pour un échantillon de données appariées, la formule est
Le numérateur est positif lorsque les variables ont tendance à évoluer dans le même sens, et négatif lorsqu’elles ont tendance à évoluer en sens opposés. Le dénominateur remet cette variation conjointe à l’échelle à l’aide de la dispersion de chaque variable.
Lorsque le de Pearson est défini, il vérifie toujours
Si l’une des variables ne varie pas du tout, le dénominateur devient , donc le de Pearson n’est pas défini.
Comment interpréter les valeurs positives, négatives et proches de zéro
Commencez par le signe :
- : association linéaire positive
- : association linéaire négative
- : absence d’association linéaire
Regardez ensuite la valeur absolue . Des valeurs plus proches de signifient que les points restent plus près d’une structure en ligne droite. Des valeurs plus proches de signifient que la structure linéaire est plus faible.
Faites attention aux étiquettes comme « faible », « modérée » ou « forte ». Ces seuils dépendent du contexte. Dans un domaine, peut être important. Dans un autre, cela peut être trop faible pour appuyer une décision.
L’habitude la plus sûre consiste à lire en même temps qu’un nuage de points. Le nombre résume la structure que vous voyez ; il ne doit pas remplacer le graphique.
Exemple détaillé : calcul de
Supposons que les données appariées soient
Calculez d’abord les moyennes :
Listez maintenant les écarts aux moyennes :
- Pour :
- Pour :
Multipliez les écarts appariés puis additionnez :
Calculez maintenant les deux sommes des carrés :
Donc
Cela vous indique qu’il existe une forte association linéaire positive dans cet échantillon. Quand augmente, augmente généralement aussi, et les points seraient assez proches d’une droite croissante.
Erreurs fréquentes dans l’interprétation de la corrélation
Confondre corrélation et causalité
Une corrélation élevée ne prouve pas qu’une variable cause l’autre. Un troisième facteur peut influencer les deux, ou la relation peut être simplement fortuite dans les données observées.
Oublier que le de Pearson est linéaire
Le de Pearson ne mesure bien que l’association linéaire. Une relation courbe peut produire une faible corrélation même lorsque les variables sont clairement liées.
Ignorer les valeurs aberrantes
Un seul point inhabituel peut beaucoup modifier . Si le nuage de points contient une valeur aberrante, la corrélation peut donner une image trompeuse de la structure d’ensemble.
Utiliser le de Pearson quand le cadre ne convient pas
Le de Pearson est conçu pour des données numériques appariées et une association linéaire. Si l’une des variables est catégorielle, ou si la structure est clairement courbe, ce coefficient peut ne pas répondre à la question qui vous intéresse vraiment.
Surinterpréter une valeur proche de zéro
Une valeur proche de signifie « faible association linéaire », pas « absence de toute relation ».
Quand utilise-t-on le coefficient de corrélation de Pearson ?
Le de Pearson est couramment utilisé en statistique, en sciences, en économie, en recherche en sciences sociales et en apprentissage automatique comme résumé rapide de données numériques appariées. Il est particulièrement utile lorsque vous voulez savoir si une structure en ligne droite est présente avant de passer à un modèle comme la régression linéaire.
En pratique, un nuage de points devrait venir en premier. Le coefficient est un résumé, pas un substitut à l’examen des données.
Essayez un problème similaire
Prenez un petit jeu de données que vous comprenez déjà, placez les points sur un graphique et estimez si la tendance semble positive, négative ou peu claire avant de calculer . Cette comparaison rapide est l’un des moyens les plus efficaces de développer une intuition de ce que dit réellement le coefficient de corrélation.
Si vous voulez aller un peu plus loin, étudiez les mêmes données avec une droite de régression linéaire simple. Cela permet de mieux voir comment corrélation et prédiction sont liées, sans être identiques.
Besoin d'aide pour un problème ?
Envoyez votre question et obtenez une solution vérifiée, étape par étape, en quelques secondes.
Ouvrir GPAI Solver →