Ein Hypothesentest ist eine Methode, um zu prüfen, ob Stichprobendaten zu stark von einer Ausgangsbehauptung abweichen. Diese Ausgangsbehauptung heißt Nullhypothese und wird als H0H_0 geschrieben.

Die Methode beweist nicht, dass H0H_0 wahr oder falsch ist. Sie stellt eine engere Frage: Wenn H0H_0 wahr wäre, wären Daten, die so extrem sind, ungewöhnlich genug, dass wir daran zweifeln sollten?

Die Grundidee

Jeder Hypothesentest hat zwei konkurrierende Aussagen:

  1. Die Nullhypothese H0H_0, also die Standardannahme, die geprüft wird.
  2. Die Alternativhypothese H1H_1 oder HaH_a, also das, was du unterstützen würdest, wenn die Daten genug Evidenz gegen H0H_0 liefern.

Dann wählst du vor dem Betrachten des Ergebnisses ein Signifikanzniveau α\alpha, oft 0.050.05. Das ist der Grenzwert dafür, wie viel Evidenz du brauchst, bevor du H0H_0 verwirfst.

Zwei Ergebnisse sind möglich:

  1. H0H_0 verwerfen: Die Daten sind mit dem Nullmodell ausreichend unvereinbar.
  2. H0H_0 nicht verwerfen: Die Daten sind nicht stark genug, um das Nullmodell auszuschließen.

"H0H_0 nicht verwerfen" ist nicht dasselbe wie "als wahr akzeptieren". Es bedeutet nur, dass die Stichprobe nicht genug starke Evidenz gegen H0H_0 geliefert hat.

Die üblichen Schritte

Der Ablauf ist meist:

  1. Formuliere H0H_0 und H1H_1 klar.
  2. Wähle α\alpha und einen Test, der zu den Daten und Annahmen passt.
  3. Berechne aus der Stichprobe eine Teststatistik.
  4. Wandle diese Statistik in einen pp-Wert um oder vergleiche sie mit einem kritischen Wert.
  5. Triff die Entscheidung und interpretiere sie im Kontext.

Die Teststatistik hängt von der Situation ab. Ein zz-Test, tt-Test, Chi-Quadrat-Test und viele andere sind alles Beispiele für Hypothesentests. Es gibt keine einzige Formel für alle Hypothesentests.

Was der pp-Wert bedeutet

Ein pp-Wert ist die Wahrscheinlichkeit, unter der Annahme, dass H0H_0 wahr ist und die Testannahmen gelten, ein Ergebnis zu erhalten, das mindestens so extrem ist wie das beobachtete.

Ein kleiner pp-Wert bedeutet, dass die Daten unter H0H_0 ungewöhnlich wären. Deshalb gelten kleine pp-Werte als Evidenz gegen die Nullhypothese.

Er bedeutet nicht:

  1. Die Wahrscheinlichkeit, dass H0H_0 falsch ist.
  2. Die Wahrscheinlichkeit, dass dein Ergebnis im vagen alltagssprachlichen Sinn "durch Zufall" entstanden ist.
  3. Die Größe oder Wichtigkeit des Effekts.

Wichtige Arten von Hypothesentests

Es gibt zwei nützliche Arten, Tests zu gruppieren.

Nach Richtung

Ein einseitiger Test sucht nur nach einer Veränderung in eine Richtung.

  • Rechtsseitig: Werte, die größer sind als die Behauptung der Nullhypothese, sprechen für H1H_1.
  • Linksseitig: Werte, die kleiner sind als die Behauptung der Nullhypothese, sprechen für H1H_1.

Ein zweiseitiger Test sucht nach einer Abweichung in beide Richtungen. Wenn H1H_1 "ungleich" ist, verteilt sich der Ablehnungsbereich auf beide Enden.

Nach Datensituation

  • Ein zz-Test wird in manchen Situationen zum Testen von Mittelwerten verwendet, wenn die Standardabweichung der Grundgesamtheit bekannt ist oder eine begründete Näherung für große Stichproben verwendet wird.
  • Ein tt-Test ist bei Mittelwerten üblich, wenn die Standardabweichung der Grundgesamtheit unbekannt ist und die Bedingungen vernünftig sind.
  • Ein Chi-Quadrat-Test wird für kategoriale Häufigkeitsdaten verwendet.

Der richtige Test hängt vom Variablentyp, vom Stichprobendesign und von den Annahmen ab. Erst die Formel und dann die Frage zu wählen, ist ein häufiger Fehler.

Durchgerechnetes Beispiel

Angenommen, eine Abfüllmaschine soll im Mittel 500500 mL pro Flasche abfüllen. Ein Team der Qualitätskontrolle zieht eine Stichprobe von 3636 Flaschen und erhält einen Stichprobenmittelwert von 496496 mL.

Nimm für dieses Beispiel an, dass die Standardabweichung der Grundgesamtheit als σ=12\sigma = 12 mL bekannt ist und die Stichprobenbedingungen einen Einstichproben-zz-Test rechtfertigen.

Stelle die Hypothesen auf:

H0:μ=500H_0: \mu = 500 H1:μ<500H_1: \mu < 500

Das ist ein linksseitiger Test, weil die Sorge eine Unterfüllung ist.

Der Standardfehler ist

σn=1236=2\frac{\sigma}{\sqrt{n}} = \frac{12}{\sqrt{36}} = 2

Also ist die Teststatistik

z=xˉμ0σ/n=4965002=2z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} = \frac{496 - 500}{2} = -2

Wenn α=0.05\alpha = 0.05 für einen linksseitigen zz-Test gilt, ist der kritische Wert ungefähr 1.645-1.645. Weil 2<1.645-2 < -1.645, liegt das Ergebnis im Ablehnungsbereich.

Die Entscheidung ist also, H0H_0 auf dem 5%5\%-Niveau zu verwerfen. Im Kontext liefert die Stichprobe Evidenz dafür, dass die Maschine im Mittel zu wenig abfüllt.

Diese Schlussfolgerung hängt von den Testannahmen ab. Wenn die Annahmen schlecht erfüllt sind, kann die Schlussfolgerung unzuverlässig sein, selbst wenn die Rechnung korrekt ist.

Fehler 1. Art und Fehler 2. Art

Hypothesentests beinhalten immer ein Fehlerrisiko.

Ein Fehler 1. Art bedeutet, H0H_0 zu verwerfen, obwohl sie wahr ist. Seine Wahrscheinlichkeit wird durch α\alpha gesteuert.

Ein Fehler 2. Art bedeutet, H0H_0 nicht zu verwerfen, obwohl H1H_1 wahr ist. Seine Wahrscheinlichkeit wird meist mit β\beta bezeichnet.

Wenn man α\alpha verringert, werden Fehlalarme unwahrscheinlicher, aber echte Effekte können dann auch schwerer zu erkennen sein, wenn sich sonst nichts ändert. Dieser Zielkonflikt ist ein Grund, warum der Stichprobenumfang wichtig ist.

Häufige Fehler

Ein häufiger Fehler ist zu sagen, ein nicht signifikantes Ergebnis beweise, dass es keinen Effekt gibt. Meist zeigt es nur, dass die Daten nicht stark genug waren, um einen Effekt nachzuweisen.

Ein weiterer Fehler ist, statistische Signifikanz mit praktischer Relevanz gleichzusetzen. Ein winziger Effekt kann in einer sehr großen Stichprobe statistisch signifikant sein.

Tests werden auch falsch verwendet, wenn Annahmen über Unabhängigkeit, Verteilungsform, Varianz oder Datentyp ignoriert werden. Ein sauber aussehender pp-Wert rettet keinen unpassenden Test.

Wann Hypothesentests verwendet werden

Hypothesentests werden in der Wissenschaft, in der Fertigung, in der Medizin, bei Umfragen, bei A/B-Tests und in der Politikanalyse verwendet. Das Ziel ist meist dasselbe: zu entscheiden, ob die Stichprobe genug Evidenz liefert, um eine Standardannahme infrage zu stellen.

In der Praxis geht es bei guten Tests nicht nur um die Rechnung. Man braucht auch eine sinnvolle Nullhypothese, ein gut begründetes Design und eine Interpretation, die dazu passt, was der Test tatsächlich aussagen kann.

Probiere deine eigene Variante

Nimm dasselbe Beispiel mit den Flaschen, aber ändere den Stichprobenmittelwert auf 498498 mL. Berechne die Teststatistik neu und prüfe, ob sich die Entscheidung bei α=0.05\alpha = 0.05 ändert. Das ist eine schnelle Möglichkeit zu sehen, wie Evidenz stärker oder schwächer wird, wenn sich das Stichprobenergebnis dem Nullwert annähert.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →