Le test d’hypothèse est une méthode qui permet de se demander si des données d’échantillon sont trop incompatibles avec une affirmation de départ. Cette affirmation de départ s’appelle l’hypothèse nulle, notée H0H_0.

La méthode ne prouve pas que H0H_0 est vraie ou fausse. Elle pose une question plus précise : si H0H_0 était vraie, des données aussi extrêmes seraient-elles assez inhabituelles pour qu’on doive en douter ?

L’idée centrale

Tout test d’hypothèse comporte deux affirmations concurrentes :

  1. L’hypothèse nulle H0H_0, qui est l’affirmation de référence testée.
  2. L’hypothèse alternative H1H_1 ou HaH_a, qui est celle que l’on soutient si les données apportent suffisamment de preuves contre H0H_0.

On choisit ensuite un niveau de signification α\alpha, souvent 0.050.05, avant de regarder le résultat. C’est le seuil qui détermine la quantité de preuve exigée avant de rejeter H0H_0.

Deux issues sont possibles :

  1. Rejeter H0H_0 : les données sont suffisamment incompatibles avec le modèle nul.
  2. Ne pas rejeter H0H_0 : les données ne sont pas assez fortes pour écarter le modèle nul.

« Ne pas rejeter » ne veut pas dire « accepter comme vrai ». Cela signifie seulement que l’échantillon n’a pas fourni de preuve assez forte contre H0H_0.

Les étapes habituelles

La démarche est généralement la suivante :

  1. Énoncer clairement H0H_0 et H1H_1.
  2. Choisir α\alpha et un test adapté aux données et aux hypothèses du modèle.
  3. Calculer une statistique de test à partir de l’échantillon.
  4. Transformer cette statistique en pp-valeur ou la comparer à une valeur critique.
  5. Prendre la décision et l’interpréter dans son contexte.

La statistique de test dépend de la situation. Un test zz, un test tt, un test du chi carré et bien d’autres sont tous des exemples de tests d’hypothèse. Il n’existe pas de formule unique pour tout le test d’hypothèse.

Ce que signifie la pp-valeur

Une pp-valeur est la probabilité, en supposant que H0H_0 est vraie et que les hypothèses du test sont respectées, d’obtenir un résultat au moins aussi extrême que celui observé.

Une petite pp-valeur signifie que les données seraient inhabituelles sous H0H_0. C’est pourquoi les petites pp-valeurs sont considérées comme des preuves contre l’hypothèse nulle.

Cela ne signifie pas :

  1. La probabilité que H0H_0 soit fausse.
  2. La probabilité que votre résultat se soit produit « par hasard » au sens vague du langage courant.
  3. La taille ou l’importance de l’effet.

Principaux types de tests d’hypothèse

Il existe deux façons utiles de regrouper les tests.

Selon la direction

Un test unilatéral recherche un changement dans une seule direction.

  • Test à droite : des valeurs plus grandes que l’affirmation nulle soutiennent H1H_1.
  • Test à gauche : des valeurs plus petites que l’affirmation nulle soutiennent H1H_1.

Un test bilatéral recherche une différence dans les deux directions. Si H1H_1 est « différent de », la région de rejet est répartie dans les deux queues.

Selon la situation des données

  • Un test zz est utilisé dans certains cas de test sur une moyenne lorsque l’écart-type de la population est connu ou qu’une approximation justifiée sur grand échantillon est utilisée.
  • Un test tt est courant pour les moyennes lorsque l’écart-type de la population est inconnu et que les conditions sont raisonnables.
  • Un test du chi carré est utilisé pour des données de comptage catégorielles.

Le bon test dépend du type de variable, du plan d’échantillonnage et des hypothèses. Choisir d’abord la formule et seulement ensuite la question est une erreur fréquente.

Exemple détaillé

Supposons qu’une machine de remplissage soit censée avoir une moyenne de 500500 mL par bouteille. Une équipe de contrôle qualité prélève un échantillon de 3636 bouteilles et obtient une moyenne d’échantillon de 496496 mL.

Supposons, pour cet exemple, que l’écart-type de la population soit connu et égal à σ=12\sigma = 12 mL, et que les conditions d’échantillonnage justifient un test zz à un échantillon.

Posons les hypothèses :

H0:μ=500H_0: \mu = 500 H1:μ<500H_1: \mu < 500

Il s’agit d’un test à gauche, car le problème est un sous-remplissage.

L’erreur standard est

σn=1236=2\frac{\sigma}{\sqrt{n}} = \frac{12}{\sqrt{36}} = 2

Donc la statistique de test est

z=xˉμ0σ/n=4965002=2z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} = \frac{496 - 500}{2} = -2

Si α=0.05\alpha = 0.05 pour un test zz à gauche, la valeur critique est d’environ 1.645-1.645. Comme 2<1.645-2 < -1.645, le résultat appartient à la région de rejet.

La décision est donc de rejeter H0H_0 au seuil de 5%5\%. Dans ce contexte, l’échantillon fournit des preuves que la machine sous-remplit en moyenne.

Cette conclusion dépend des hypothèses du test. Si ces hypothèses sont mauvaises, la conclusion peut être peu fiable même si le calcul est correct.

Erreurs de type I et de type II

Le test d’hypothèse implique toujours un risque d’erreur.

Une erreur de type I consiste à rejeter H0H_0 alors qu’elle est vraie. Sa probabilité est contrôlée par α\alpha.

Une erreur de type II consiste à ne pas rejeter H0H_0 alors que H1H_1 est vraie. Sa probabilité est généralement notée β\beta.

Réduire α\alpha rend les fausses alertes moins probables, mais cela peut aussi rendre les effets réels plus difficiles à détecter si rien d’autre ne change. C’est l’une des raisons pour lesquelles la taille de l’échantillon compte.

Erreurs fréquentes

Une erreur fréquente consiste à dire qu’un résultat non significatif prouve qu’il n’y a pas d’effet. En général, cela montre seulement que les données n’étaient pas assez fortes pour en détecter un.

Une autre erreur consiste à confondre significativité statistique et importance pratique. Un effet minuscule peut être statistiquement significatif dans un très grand échantillon.

On utilise aussi mal les tests lorsqu’on ignore les hypothèses sur l’indépendance, la forme de la distribution, la variance ou le type de données. Une pp-valeur apparemment nette ne sauve pas un test mal choisi.

Quand le test d’hypothèse est utilisé

Le test d’hypothèse est utilisé en science, dans l’industrie, en médecine, dans les enquêtes, les tests A/B et l’analyse des politiques publiques. L’objectif est généralement le même : décider si l’échantillon fournit assez de preuves pour remettre en question une affirmation de référence.

En pratique, un bon test ne se résume pas au calcul. Il exige aussi une hypothèse nulle pertinente, un plan défendable et une interprétation conforme à ce que le test peut réellement dire.

Essayez votre propre version

Reprenez le même exemple de remplissage des bouteilles, mais remplacez la moyenne d’échantillon par 498498 mL. Recalculez la statistique de test et voyez si la décision change pour α=0.05\alpha = 0.05. C’est un moyen rapide de voir comment la force de la preuve augmente ou diminue lorsque le résultat de l’échantillon se rapproche de la valeur nulle.

Besoin d'aide pour un problème ?

Envoyez votre question et obtenez une solution vérifiée, étape par étape, en quelques secondes.

Ouvrir GPAI Solver →