Test du chi carré

Un test du chi carré vérifie si des données d’effectifs catégoriels s’écartent trop de ce qu’un modèle prévoirait par le seul effet du hasard. Il s’utilise pour des effectifs dans des catégories, pas pour des moyennes ni pour des mesures brutes.

L’idée de base est simple : comparer ce que vous avez observé à ce que vous attendriez si l’hypothèse nulle était vraie. Si les écarts sont suffisamment grands, la statistique du chi carré devient grande, et les données constituent alors un argument contre ce modèle nul.

Ce que le test compare réellement

Dans la configuration la plus courante, vous avez des effectifs observés $O$ et des effectifs attendus $E$ pour chaque catégorie. La statistique de test est

\chi^2 = \sum \frac{(O - E)^2}{E}

Cette valeur augmente lorsque les effectifs observés s’éloignent davantage des effectifs attendus. Les écarts plus importants pèsent davantage, et les catégories dont les effectifs attendus sont plus grands sont mises à l’échelle en conséquence.

Les effectifs attendus ne sont pas choisis au hasard. Ils proviennent de l’hypothèse nulle. Pour un test d’ajustement, l’hypothèse nulle peut affirmer que les catégories sont équiprobables. Pour un test d’indépendance, l’hypothèse nulle affirme que deux variables catégorielles ne sont pas liées.

Deux versions courantes

L’expression « test du chi carré » désigne généralement l’un de ces deux cas :

Un test d’ajustement, qui demande si une variable catégorielle suit une distribution annoncée.
Un test d’indépendance, qui demande si deux variables catégorielles sont associées dans un tableau de contingence.

La même famille de statistiques est utilisée dans les deux cas, mais la façon de calculer les effectifs attendus dépend de la version.

Exemple détaillé : test d’ajustement

Supposons qu’un café veuille savoir si trois tailles de boisson sont choisies aussi souvent les unes que les autres. Sur $60$ commandes, les effectifs observés sont :

Petite : $26$
Moyenne : $18$
Grande : $16$

Si l’hypothèse nulle dit que les trois tailles sont équiprobables, l’effectif attendu dans chaque catégorie est

E = \frac{60}{3} = 20

Calculons maintenant la statistique :

\chi^2 = \frac{(26-20)^2}{20} + \frac{(18-20)^2}{20} + \frac{(16-20)^2}{20}

= \frac{36}{20} + \frac{4}{20} + \frac{16}{20}

= 1.8 + 0.2 + 0.8 = 2.8

C’est la statistique de test, mais ce n’est pas à elle seule la conclusion finale. Il faut comparer $\chi^2 = 2.8$ à une loi du chi carré avec le nombre approprié de degrés de liberté. Ici, le nombre de degrés de liberté est $3 - 1 = 2$ , car il y a trois catégories et aucun paramètre n’a été estimé à partir des données. Avec $df = 2$ , une statistique de $2.8$ ne constitue pas une preuve forte contre l’égalité des préférences au seuil de $5\%$ .

En pratique, on lit cela ainsi : les effectifs diffèrent d’une égalité parfaite, mais pas assez pour affirmer avec confiance que les préférences réelles sont inégales sur la seule base de cet échantillon.

Quand ce test est pertinent

Utilisez un test du chi carré lorsque toutes les conditions suivantes sont réunies :

Vos données sont un ensemble d’effectifs répartis en catégories.
Les observations sont indépendantes, ou suffisamment proches de l’être pour le modèle que vous utilisez.
Les effectifs attendus ne sont pas trop faibles pour l’approximation du chi carré que vous comptez utiliser.

Dans de nombreux cours d’introduction, on utilise la règle pratique selon laquelle les effectifs attendus devraient être d’au moins environ $5$ dans chaque catégorie. C’est un repère pratique, pas une loi universelle, mais c’est un signal d’alerte utile.

Erreurs fréquentes

Utiliser le test sur des moyennes, des mesures ou des pourcentages au lieu d’effectifs par catégorie.
Prendre les effectifs observés pour des effectifs attendus. Les effectifs attendus doivent venir de l’hypothèse nulle.
Ignorer de petits effectifs attendus, ce qui peut rendre l’approximation usuelle du chi carré peu fiable.
Penser que « statistiquement significatif » veut dire « important en pratique ». Le test ne traite que de la preuve contre le modèle nul.

Où on le rencontre

Les tests du chi carré apparaissent dans les enquêtes, la génétique, le contrôle qualité, les études de marché et toute situation où les résultats tombent dans des catégories. Ils sont particulièrement fréquents lorsque la vraie question est de savoir si un motif est surprenant ou si deux variables catégorielles semblent liées.

Si les données sont numériques plutôt que catégorielles, un autre outil est généralement plus adapté. Par exemple, comparer des moyennes conduit souvent plutôt à un test $t$ ou à une ANOVA.

Essayez votre propre version

Prenez un petit tableau d’effectifs par catégorie et écrivez l’hypothèse nulle avant de faire le moindre calcul. Cette seule étape évite généralement l’erreur la plus fréquente dans les problèmes de chi carré : utiliser la bonne formule avec de mauvais effectifs attendus.

Besoin d'aide pour un problème ?

Envoyez votre question et obtenez une solution vérifiée, étape par étape, en quelques secondes.

Ouvrir GPAI Solver →