Test d’hypothèse

Le test d’hypothèse est une méthode qui permet de se demander si des données d’échantillon sont trop incompatibles avec une affirmation de départ. Cette affirmation de départ s’appelle l’hypothèse nulle, notée $H_0$ .

La méthode ne prouve pas que $H_0$ est vraie ou fausse. Elle pose une question plus précise : si $H_0$ était vraie, des données aussi extrêmes seraient-elles assez inhabituelles pour qu’on doive en douter ?

L’idée centrale

Tout test d’hypothèse comporte deux affirmations concurrentes :

L’hypothèse nulle $H_0$ , qui est l’affirmation de référence testée.
L’hypothèse alternative $H_1$ ou $H_a$ , qui est celle que l’on soutient si les données apportent suffisamment de preuves contre $H_0$ .

On choisit ensuite un niveau de signification $\alpha$ , souvent $0.05$ , avant de regarder le résultat. C’est le seuil qui détermine la quantité de preuve exigée avant de rejeter $H_0$ .

Deux issues sont possibles :

Rejeter $H_0$ : les données sont suffisamment incompatibles avec le modèle nul.
Ne pas rejeter $H_0$ : les données ne sont pas assez fortes pour écarter le modèle nul.

« Ne pas rejeter » ne veut pas dire « accepter comme vrai ». Cela signifie seulement que l’échantillon n’a pas fourni de preuve assez forte contre $H_0$ .

Les étapes habituelles

La démarche est généralement la suivante :

Énoncer clairement $H_0$ et $H_1$ .
Choisir $\alpha$ et un test adapté aux données et aux hypothèses du modèle.
Calculer une statistique de test à partir de l’échantillon.
Transformer cette statistique en $p$ -valeur ou la comparer à une valeur critique.
Prendre la décision et l’interpréter dans son contexte.

La statistique de test dépend de la situation. Un test $z$ , un test $t$ , un test du chi carré et bien d’autres sont tous des exemples de tests d’hypothèse. Il n’existe pas de formule unique pour tout le test d’hypothèse.

Ce que signifie la $p$ -valeur

Une $p$ -valeur est la probabilité, en supposant que $H_0$ est vraie et que les hypothèses du test sont respectées, d’obtenir un résultat au moins aussi extrême que celui observé.

Une petite $p$ -valeur signifie que les données seraient inhabituelles sous $H_0$ . C’est pourquoi les petites $p$ -valeurs sont considérées comme des preuves contre l’hypothèse nulle.

Cela ne signifie pas :

La probabilité que $H_0$ soit fausse.
La probabilité que votre résultat se soit produit « par hasard » au sens vague du langage courant.
La taille ou l’importance de l’effet.

Principaux types de tests d’hypothèse

Il existe deux façons utiles de regrouper les tests.

Selon la direction

Un test unilatéral recherche un changement dans une seule direction.

Test à droite : des valeurs plus grandes que l’affirmation nulle soutiennent $H_1$ .
Test à gauche : des valeurs plus petites que l’affirmation nulle soutiennent $H_1$ .

Un test bilatéral recherche une différence dans les deux directions. Si $H_1$ est « différent de », la région de rejet est répartie dans les deux queues.

Selon la situation des données

Un test $z$ est utilisé dans certains cas de test sur une moyenne lorsque l’écart-type de la population est connu ou qu’une approximation justifiée sur grand échantillon est utilisée.
Un test $t$ est courant pour les moyennes lorsque l’écart-type de la population est inconnu et que les conditions sont raisonnables.
Un test du chi carré est utilisé pour des données de comptage catégorielles.

Le bon test dépend du type de variable, du plan d’échantillonnage et des hypothèses. Choisir d’abord la formule et seulement ensuite la question est une erreur fréquente.

Exemple détaillé

Supposons qu’une machine de remplissage soit censée avoir une moyenne de $500$ mL par bouteille. Une équipe de contrôle qualité prélève un échantillon de $36$ bouteilles et obtient une moyenne d’échantillon de $496$ mL.

Supposons, pour cet exemple, que l’écart-type de la population soit connu et égal à $\sigma = 12$ mL, et que les conditions d’échantillonnage justifient un test $z$ à un échantillon.

Posons les hypothèses :

H_0: \mu = 500

H_1: \mu < 500

Il s’agit d’un test à gauche, car le problème est un sous-remplissage.

L’erreur standard est

\frac{\sigma}{\sqrt{n}} = \frac{12}{\sqrt{36}} = 2

Donc la statistique de test est

z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} = \frac{496 - 500}{2} = -2

Si $\alpha = 0.05$ pour un test $z$ à gauche, la valeur critique est d’environ $-1.645$ . Comme $-2 < -1.645$ , le résultat appartient à la région de rejet.

La décision est donc de rejeter $H_0$ au seuil de $5\%$ . Dans ce contexte, l’échantillon fournit des preuves que la machine sous-remplit en moyenne.

Cette conclusion dépend des hypothèses du test. Si ces hypothèses sont mauvaises, la conclusion peut être peu fiable même si le calcul est correct.

Erreurs de type I et de type II

Le test d’hypothèse implique toujours un risque d’erreur.

Une erreur de type I consiste à rejeter $H_0$ alors qu’elle est vraie. Sa probabilité est contrôlée par $\alpha$ .

Une erreur de type II consiste à ne pas rejeter $H_0$ alors que $H_1$ est vraie. Sa probabilité est généralement notée $\beta$ .

Réduire $\alpha$ rend les fausses alertes moins probables, mais cela peut aussi rendre les effets réels plus difficiles à détecter si rien d’autre ne change. C’est l’une des raisons pour lesquelles la taille de l’échantillon compte.

Erreurs fréquentes

Une erreur fréquente consiste à dire qu’un résultat non significatif prouve qu’il n’y a pas d’effet. En général, cela montre seulement que les données n’étaient pas assez fortes pour en détecter un.

Une autre erreur consiste à confondre significativité statistique et importance pratique. Un effet minuscule peut être statistiquement significatif dans un très grand échantillon.

On utilise aussi mal les tests lorsqu’on ignore les hypothèses sur l’indépendance, la forme de la distribution, la variance ou le type de données. Une $p$ -valeur apparemment nette ne sauve pas un test mal choisi.

Quand le test d’hypothèse est utilisé

Le test d’hypothèse est utilisé en science, dans l’industrie, en médecine, dans les enquêtes, les tests A/B et l’analyse des politiques publiques. L’objectif est généralement le même : décider si l’échantillon fournit assez de preuves pour remettre en question une affirmation de référence.

En pratique, un bon test ne se résume pas au calcul. Il exige aussi une hypothèse nulle pertinente, un plan défendable et une interprétation conforme à ce que le test peut réellement dire.

Essayez votre propre version

Reprenez le même exemple de remplissage des bouteilles, mais remplacez la moyenne d’échantillon par $498$ mL. Recalculez la statistique de test et voyez si la décision change pour $\alpha = 0.05$ . C’est un moyen rapide de voir comment la force de la preuve augmente ou diminue lorsque le résultat de l’échantillon se rapproche de la valeur nulle.

Besoin d'aide pour un problème ?

Envoyez votre question et obtenez une solution vérifiée, étape par étape, en quelques secondes.

Ouvrir GPAI Solver →