T-Test — Arten, Formel & wann man ihn verwendet

Ein t-Test hilft dir zu entscheiden, ob ein Stichprobenmittelwert oder die Differenz zwischen zwei Stichprobenmittelwerten größer ist, als man allein durch zufällige Schwankungen erwarten würde. Man verwendet ihn, wenn die Zielvariable numerisch ist und die Standardabweichung der Grundgesamtheit unbekannt ist, was in der Praxis meist der Fall ist.

Die wichtigste Bedingung ist, dass der Test zum Design der Daten passen muss. Ein t-Test ist für Fragen zu Mittelwerten gedacht, nicht für kategoriale Häufigkeiten, und bei sehr kleinen Stichproben ist Vorsicht nötig, wenn starke Schiefe oder auffällige Ausreißer vorliegen.

Was ein t-Test misst

Die Grundidee ist immer dieselbe:

t = \frac{\text{beobachtete Differenz}}{\text{geschätzter Standardfehler}}

Die Statistik wird größer, wenn die Mittelwertdifferenz groß ist, und kleiner, wenn die Daten stark streuen oder die Stichprobe klein ist.

Unter der Nullhypothese und wenn die Voraussetzungen vernünftig erfüllt sind, folgt diese Statistik einer $t$ -Verteilung statt einer normalen $z$ -Verteilung. Die $t$ -Verteilung hat schwerere Randbereiche, besonders bei kleinen Stichproben, und ist deshalb vorsichtiger dabei, ein Ergebnis als signifikant zu bewerten.

Welche Art von t-Test solltest du verwenden

Ein-Stichproben-t-Test

Verwende ihn, wenn du eine Stichprobe hast und ihren Mittelwert mit einem Referenzwert $\mu_0$ vergleichen möchtest.

t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}

Beispiel: Vergleiche das durchschnittliche Paketgewicht einer Stichprobe mit einem Sollwert von $100$ Gramm.

Zwei-Stichproben-t-Test

Verwende ihn, wenn du die Mittelwerte von zwei unabhängigen Gruppen vergleichen möchtest, zum Beispiel zwei Klassen, die mit unterschiedlichen Methoden unterrichtet wurden.

Wenn du keinen guten Grund hast, gleiche Varianzen in den Grundgesamtheiten anzunehmen, ist der Welch-t-Test meist die sicherere Standardwahl:

t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

Die Freiheitsgrade beim Welch-Test sind nicht einfach $n_1 + n_2 - 2$ , daher übernimmt Software diesen Teil normalerweise für dich.

Gepaarter t-Test

Verwende ihn für Vorher-Nachher-Daten oder gepaarte Beobachtungen. Der Test wird nicht getrennt auf die beiden Rohdaten-Spalten angewendet. Er wird auf die paarweisen Differenzen angewendet.

t = \frac{\bar{d} - \mu_{d,0}}{s_d / \sqrt{n}}

Bei vielen gepaarten Fragestellungen ist der Nullwert $\mu_{d,0} = 0$ , also dass die durchschnittliche Veränderung null ist.

Wann ein t-Test geeignet ist

Ein t-Test passt gut, wenn all diese Punkte einigermaßen erfüllt sind:

Die Zielvariable ist numerisch.
Die Beobachtungen sind innerhalb des gewählten Designs unabhängig, außer du verwendest bewusst ein gepaartes Design.
Die Fragestellung betrifft einen Mittelwert oder eine Mittelwertdifferenz.
Die Stichprobe ist nicht so klein und durch Ausreißer oder starke Schiefe so verzerrt, dass Mittelwert und Standardabweichung irreführend werden.

Wenn die Standardabweichung der Grundgesamtheit exakt bekannt wäre, wäre ein klassischer $z$ -Test die direkte Alternative. In der Praxis sind t-Tests verbreitet, weil $\sigma$ meist unbekannt ist.

Rechenbeispiel: ein Ein-Stichproben-t-Test

Angenommen, ein Verpackungsprozess soll im Mittel $100$ Gramm ergeben. Du ziehst eine Zufallsstichprobe von $25$ Paketen und erhältst

\bar{x} = 102, \quad s = 4

Du möchtest wissen, ob sich der wahre Mittelwert von $100$ Gramm unterscheidet.

Da hier eine Stichprobe mit einem Zielwert verglichen wird, ist der richtige Test ein Ein-Stichproben-t-Test.

Beginne mit den Hypothesen:

H_0: \mu = 100

H_1: \mu \ne 100

Der Standardfehler ist

\frac{s}{\sqrt{n}} = \frac{4}{\sqrt{25}} = \frac{4}{5} = 0.8

Berechne nun die Teststatistik:

t = \frac{102 - 100}{0.8} = 2.5

Die Freiheitsgrade sind

df = n - 1 = 24

Für einen zweiseitigen Test mit $df = 24$ ergibt ein Wert von $t = 2.5$ einen p-Wert unter $0.05$ . Das bedeutet, dass das Ergebnis auf dem $5\%$ -Niveau statistisch signifikant ist, also verwirfst du $H_0$ .

Im Kontext liefert die Stichprobe Hinweise darauf, dass sich der Prozessmittelwert von $100$ Gramm unterscheidet. Diese Schlussfolgerung setzt voraus, dass die Stichprobe hinreichend unabhängig ist und nicht stark durch Ausreißer verzerrt wird.

Häufige Fehler bei t-Tests

Ein häufiger Fehler ist die Wahl der falschen Testvariante. Wenn dieselben Personen, Maschinen oder Einheiten zweimal gemessen werden, sind die Daten gepaart, daher ist ein unabhängiger Zwei-Stichproben-t-Test nicht geeignet.

Ein weiterer Fehler ist, „nicht statistisch signifikant“ als „es gibt keinen Unterschied“ zu lesen. Meist bedeutet es nur, dass die Stichprobe nicht genügend starke Evidenz gegen die Nullhypothese geliefert hat.

Ein dritter Fehler ist, die Datenprüfung zu überspringen. Bei einer winzigen Stichprobe und einem extremen Ausreißer liefert die Formel zwar immer noch eine Zahl, aber die Schlussfolgerung ist möglicherweise nicht verlässlich.

Wo t-Tests verwendet werden

T-Tests sind in Experimenten, der Qualitätskontrolle, der Medizin, der Psychologie, der Bildungsforschung und bei A/B-ähnlichen Vergleichen verbreitet, wenn die Zielvariable numerisch ist. Sie gehören zu den Standard-Einstiegen in die statistische Inferenz, weil sie Mittelwerte, Streuung, Unsicherheit und Entscheidungsfindung in einer Methode verbinden.

Probiere eine ähnliche Aufgabe

Ändere das Beispiel so, dass der Stichprobenmittelwert $101$ statt $102$ ist, während $n = 25$ und $s = 4$ gleich bleiben. Berechne die t-Statistik erneut und entscheide, ob die Evidenz auf dem $5\%$ -Niveau noch stark genug ist. Das ist ein sinnvoller nächster Schritt, wenn du sehen möchtest, wie sich die Schlussfolgerung ändert, wenn sich der Stichprobenmittelwert dem Nullwert annähert.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →