Chi-Quadrat-Test | GPAI STEM

Ein Chi-Quadrat-Test prüft, ob kategoriale Häufigkeitsdaten stärker von dem abweichen, was ein Modell allein durch Zufall erwarten würde. Er wird für Häufigkeiten in Kategorien verwendet, nicht für Mittelwerte oder rohe Messdaten.

Die Grundidee ist einfach: Man vergleicht das Beobachtete mit dem, was man erwarten würde, wenn die Nullhypothese wahr wäre. Sind die Abweichungen groß genug, wird die Chi-Quadrat-Statistik groß, und die Daten gelten als Hinweis gegen dieses Nullmodell.

Was der Test tatsächlich vergleicht

In der häufigsten Form hat man beobachtete Häufigkeiten $O$ und erwartete Häufigkeiten $E$ für jede Kategorie. Die Teststatistik ist

\chi^2 = \sum \frac{(O - E)^2}{E}

Dieser Wert wird größer, wenn die beobachteten Häufigkeiten weiter von den erwarteten abweichen. Größere Abweichungen fallen stärker ins Gewicht, und Kategorien mit größeren erwarteten Häufigkeiten werden entsprechend skaliert.

Die erwarteten Häufigkeiten werden nicht einfach geschätzt. Sie ergeben sich aus der Nullhypothese. Bei einem Anpassungstest kann die Nullhypothese zum Beispiel besagen, dass alle Kategorien gleich wahrscheinlich sind. Bei einem Unabhängigkeitstest besagt die Nullhypothese, dass zwei kategoriale Variablen nichts miteinander zu tun haben.

Zwei häufige Varianten

Mit dem Ausdruck „Chi-Quadrat-Test“ ist meist eine dieser beiden Varianten gemeint:

Ein Anpassungstest, der fragt, ob eine kategoriale Variable einer behaupteten Verteilung folgt.
Ein Unabhängigkeitstest, der fragt, ob zwei kategoriale Variablen in einer Kontingenztafel zusammenhängen.

In beiden Fällen wird dieselbe Familie von Teststatistiken verwendet, aber die Berechnung der erwarteten Häufigkeiten hängt von der jeweiligen Variante ab.

Durchgerechnetes Beispiel: Anpassungstest

Angenommen, ein Café möchte wissen, ob drei Getränkgrößen gleich häufig gewählt werden. Bei $60$ Bestellungen sind die beobachteten Häufigkeiten:

Klein: $26$
Mittel: $18$
Groß: $16$

Wenn die Nullhypothese besagt, dass alle drei Größen gleich wahrscheinlich sind, dann ist die erwartete Häufigkeit in jeder Kategorie

E = \frac{60}{3} = 20

Nun berechnen wir die Statistik:

\chi^2 = \frac{(26-20)^2}{20} + \frac{(18-20)^2}{20} + \frac{(16-20)^2}{20}

= \frac{36}{20} + \frac{4}{20} + \frac{16}{20}

= 1.8 + 0.2 + 0.8 = 2.8

Das ist die Teststatistik, aber für sich allein noch nicht die endgültige Schlussfolgerung. Man würde $\chi^2 = 2.8$ mit einer Chi-Quadrat-Verteilung mit den passenden Freiheitsgraden vergleichen. Hier sind die Freiheitsgrade $3 - 1 = 2$ , weil es drei Kategorien gibt und keine Parameter aus den Daten geschätzt wurden. Bei $df = 2$ ist eine Statistik von $2.8$ auf dem $5\%$ -Niveau kein starker Hinweis gegen gleiche Präferenzen.

Praktisch bedeutet das: Die Häufigkeiten weichen von perfekter Gleichverteilung ab, aber nicht stark genug, um allein auf Basis dieser Stichprobe sicher zu sagen, dass die wahren Präferenzen ungleich sind.

Wann der Test sinnvoll ist

Verwende einen Chi-Quadrat-Test, wenn all das zutrifft:

Deine Daten bestehen aus Häufigkeiten in Kategorien.
Die Beobachtungen sind unabhängig oder für das verwendete Modell zumindest annähernd unabhängig.
Die erwarteten Häufigkeiten sind nicht zu klein für die Chi-Quadrat-Näherung, die du verwenden willst.

In vielen Einführungskursen gilt als Faustregel, dass die erwarteten Häufigkeiten in jeder Kategorie mindestens etwa $5$ betragen sollten. Das ist eine praktische Richtlinie, kein universelles Gesetz, aber ein nützliches Warnsignal.

Häufige Fehler

Den Test auf Mittelwerte, Messdaten oder Prozentwerte statt auf kategoriale Häufigkeiten anzuwenden.
Die beobachteten Häufigkeiten als erwartete Häufigkeiten zu behandeln. Die erwarteten Häufigkeiten müssen aus der Nullhypothese folgen.
Kleine erwartete Häufigkeiten zu ignorieren, obwohl dadurch die übliche Chi-Quadrat-Näherung unzuverlässig werden kann.
Zu denken, „statistisch signifikant“ bedeute automatisch „praktisch wichtig“. Der Test sagt nur etwas über Evidenz gegen das Nullmodell aus.

Wo man ihn sieht

Chi-Quadrat-Tests tauchen in Umfragen, Genetik, Qualitätskontrolle, Marktforschung und überall dort auf, wo Ergebnisse in Kategorien fallen. Sie sind besonders häufig, wenn die eigentliche Frage lautet, ob ein Muster überraschend ist oder ob zwei kategoriale Variablen zusammenzuhängen scheinen.

Wenn die Daten numerisch statt kategorial sind, ist meist ein anderes Werkzeug besser geeignet. Beim Vergleich von Mittelwerten führt man zum Beispiel oft eher einen $t$ -Test oder eine ANOVA durch.

Probiere deine eigene Version aus

Nimm eine kleine Tabelle mit kategorialen Häufigkeiten und schreibe die Nullhypothese auf, bevor du irgendetwas ausrechnest. Dieser eine Schritt verhindert meist den größten Fehler bei Chi-Quadrat-Aufgaben: die richtige Formel mit den falschen erwarteten Häufigkeiten zu verwenden.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →