Hypothesentests

Ein Hypothesentest ist eine Methode, um zu prüfen, ob Stichprobendaten zu stark von einer Ausgangsbehauptung abweichen. Diese Ausgangsbehauptung heißt Nullhypothese und wird als $H_0$ geschrieben.

Die Methode beweist nicht, dass $H_0$ wahr oder falsch ist. Sie stellt eine engere Frage: Wenn $H_0$ wahr wäre, wären Daten, die so extrem sind, ungewöhnlich genug, dass wir daran zweifeln sollten?

Die Grundidee

Jeder Hypothesentest hat zwei konkurrierende Aussagen:

Die Nullhypothese $H_0$ , also die Standardannahme, die geprüft wird.
Die Alternativhypothese $H_1$ oder $H_a$ , also das, was du unterstützen würdest, wenn die Daten genug Evidenz gegen $H_0$ liefern.

Dann wählst du vor dem Betrachten des Ergebnisses ein Signifikanzniveau $\alpha$ , oft $0.05$ . Das ist der Grenzwert dafür, wie viel Evidenz du brauchst, bevor du $H_0$ verwirfst.

Zwei Ergebnisse sind möglich:

$H_0$ verwerfen: Die Daten sind mit dem Nullmodell ausreichend unvereinbar.
$H_0$ nicht verwerfen: Die Daten sind nicht stark genug, um das Nullmodell auszuschließen.

" $H_0$ nicht verwerfen" ist nicht dasselbe wie "als wahr akzeptieren". Es bedeutet nur, dass die Stichprobe nicht genug starke Evidenz gegen $H_0$ geliefert hat.

Die üblichen Schritte

Der Ablauf ist meist:

Formuliere $H_0$ und $H_1$ klar.
Wähle $\alpha$ und einen Test, der zu den Daten und Annahmen passt.
Berechne aus der Stichprobe eine Teststatistik.
Wandle diese Statistik in einen $p$ -Wert um oder vergleiche sie mit einem kritischen Wert.
Triff die Entscheidung und interpretiere sie im Kontext.

Die Teststatistik hängt von der Situation ab. Ein $z$ -Test, $t$ -Test, Chi-Quadrat-Test und viele andere sind alles Beispiele für Hypothesentests. Es gibt keine einzige Formel für alle Hypothesentests.

Was der $p$ -Wert bedeutet

Ein $p$ -Wert ist die Wahrscheinlichkeit, unter der Annahme, dass $H_0$ wahr ist und die Testannahmen gelten, ein Ergebnis zu erhalten, das mindestens so extrem ist wie das beobachtete.

Ein kleiner $p$ -Wert bedeutet, dass die Daten unter $H_0$ ungewöhnlich wären. Deshalb gelten kleine $p$ -Werte als Evidenz gegen die Nullhypothese.

Er bedeutet nicht:

Die Wahrscheinlichkeit, dass $H_0$ falsch ist.
Die Wahrscheinlichkeit, dass dein Ergebnis im vagen alltagssprachlichen Sinn "durch Zufall" entstanden ist.
Die Größe oder Wichtigkeit des Effekts.

Wichtige Arten von Hypothesentests

Es gibt zwei nützliche Arten, Tests zu gruppieren.

Nach Richtung

Ein einseitiger Test sucht nur nach einer Veränderung in eine Richtung.

Rechtsseitig: Werte, die größer sind als die Behauptung der Nullhypothese, sprechen für $H_1$ .
Linksseitig: Werte, die kleiner sind als die Behauptung der Nullhypothese, sprechen für $H_1$ .

Ein zweiseitiger Test sucht nach einer Abweichung in beide Richtungen. Wenn $H_1$ "ungleich" ist, verteilt sich der Ablehnungsbereich auf beide Enden.

Nach Datensituation

Ein $z$ -Test wird in manchen Situationen zum Testen von Mittelwerten verwendet, wenn die Standardabweichung der Grundgesamtheit bekannt ist oder eine begründete Näherung für große Stichproben verwendet wird.
Ein $t$ -Test ist bei Mittelwerten üblich, wenn die Standardabweichung der Grundgesamtheit unbekannt ist und die Bedingungen vernünftig sind.
Ein Chi-Quadrat-Test wird für kategoriale Häufigkeitsdaten verwendet.

Der richtige Test hängt vom Variablentyp, vom Stichprobendesign und von den Annahmen ab. Erst die Formel und dann die Frage zu wählen, ist ein häufiger Fehler.

Durchgerechnetes Beispiel

Angenommen, eine Abfüllmaschine soll im Mittel $500$ mL pro Flasche abfüllen. Ein Team der Qualitätskontrolle zieht eine Stichprobe von $36$ Flaschen und erhält einen Stichprobenmittelwert von $496$ mL.

Nimm für dieses Beispiel an, dass die Standardabweichung der Grundgesamtheit als $\sigma = 12$ mL bekannt ist und die Stichprobenbedingungen einen Einstichproben- $z$ -Test rechtfertigen.

Stelle die Hypothesen auf:

H_0: \mu = 500

H_1: \mu < 500

Das ist ein linksseitiger Test, weil die Sorge eine Unterfüllung ist.

Der Standardfehler ist

\frac{\sigma}{\sqrt{n}} = \frac{12}{\sqrt{36}} = 2

Also ist die Teststatistik

z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} = \frac{496 - 500}{2} = -2

Wenn $\alpha = 0.05$ für einen linksseitigen $z$ -Test gilt, ist der kritische Wert ungefähr $-1.645$ . Weil $-2 < -1.645$ , liegt das Ergebnis im Ablehnungsbereich.

Die Entscheidung ist also, $H_0$ auf dem $5\%$ -Niveau zu verwerfen. Im Kontext liefert die Stichprobe Evidenz dafür, dass die Maschine im Mittel zu wenig abfüllt.

Diese Schlussfolgerung hängt von den Testannahmen ab. Wenn die Annahmen schlecht erfüllt sind, kann die Schlussfolgerung unzuverlässig sein, selbst wenn die Rechnung korrekt ist.

Fehler 1. Art und Fehler 2. Art

Hypothesentests beinhalten immer ein Fehlerrisiko.

Ein Fehler 1. Art bedeutet, $H_0$ zu verwerfen, obwohl sie wahr ist. Seine Wahrscheinlichkeit wird durch $\alpha$ gesteuert.

Ein Fehler 2. Art bedeutet, $H_0$ nicht zu verwerfen, obwohl $H_1$ wahr ist. Seine Wahrscheinlichkeit wird meist mit $\beta$ bezeichnet.

Wenn man $\alpha$ verringert, werden Fehlalarme unwahrscheinlicher, aber echte Effekte können dann auch schwerer zu erkennen sein, wenn sich sonst nichts ändert. Dieser Zielkonflikt ist ein Grund, warum der Stichprobenumfang wichtig ist.

Häufige Fehler

Ein häufiger Fehler ist zu sagen, ein nicht signifikantes Ergebnis beweise, dass es keinen Effekt gibt. Meist zeigt es nur, dass die Daten nicht stark genug waren, um einen Effekt nachzuweisen.

Ein weiterer Fehler ist, statistische Signifikanz mit praktischer Relevanz gleichzusetzen. Ein winziger Effekt kann in einer sehr großen Stichprobe statistisch signifikant sein.

Tests werden auch falsch verwendet, wenn Annahmen über Unabhängigkeit, Verteilungsform, Varianz oder Datentyp ignoriert werden. Ein sauber aussehender $p$ -Wert rettet keinen unpassenden Test.

Wann Hypothesentests verwendet werden

Hypothesentests werden in der Wissenschaft, in der Fertigung, in der Medizin, bei Umfragen, bei A/B-Tests und in der Politikanalyse verwendet. Das Ziel ist meist dasselbe: zu entscheiden, ob die Stichprobe genug Evidenz liefert, um eine Standardannahme infrage zu stellen.

In der Praxis geht es bei guten Tests nicht nur um die Rechnung. Man braucht auch eine sinnvolle Nullhypothese, ein gut begründetes Design und eine Interpretation, die dazu passt, was der Test tatsächlich aussagen kann.

Probiere deine eigene Variante

Nimm dasselbe Beispiel mit den Flaschen, aber ändere den Stichprobenmittelwert auf $498$ mL. Berechne die Teststatistik neu und prüfe, ob sich die Entscheidung bei $\alpha = 0.05$ ändert. Das ist eine schnelle Möglichkeit zu sehen, wie Evidenz stärker oder schwächer wird, wenn sich das Stichprobenergebnis dem Nullwert annähert.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →