Testowanie hipotez

Testowanie hipotez to sposób sprawdzania, czy dane z próby są zbyt niezgodne z początkowym założeniem. To początkowe założenie nazywa się hipotezą zerową i zapisuje jako $H_0$ .

Ta metoda nie dowodzi, że $H_0$ jest prawdziwa albo fałszywa. Zadaje węższe pytanie: gdyby $H_0$ była prawdziwa, czy tak skrajne dane byłyby na tyle nietypowe, że powinniśmy w nią zwątpić?

Główna idea

W każdym teście hipotez występują dwa konkurencyjne stwierdzenia:

Hipoteza zerowa $H_0$ , czyli domyślne twierdzenie poddawane testowi.
Hipoteza alternatywna $H_1$ lub $H_a$ , czyli to, co uznajesz za bardziej wiarygodne, jeśli dane dostarczą wystarczających dowodów przeciwko $H_0$ .

Następnie wybierasz poziom istotności $\alpha$ , często $0.05$ , zanim spojrzysz na wynik. To próg określający, jak silnych dowodów wymagasz, aby odrzucić $H_0$ .

Możliwe są dwa wyniki:

Odrzucenie $H_0$ : dane są wystarczająco niezgodne z modelem zerowym.
Brak podstaw do odrzucenia $H_0$ : dane nie są na tyle mocne, by wykluczyć model zerowy.

„Brak podstaw do odrzucenia” nie oznacza tego samego co „uznanie za prawdziwą”. Oznacza tylko, że próba nie dostarczyła wystarczająco silnych dowodów przeciwko $H_0$ .

Typowe etapy

Schemat postępowania zwykle wygląda tak:

Jasno sformułuj $H_0$ i $H_1$ .
Wybierz $\alpha$ oraz test pasujący do danych i założeń.
Oblicz statystykę testową na podstawie próby.
Zamień tę statystykę na wartość $p$ albo porównaj ją z wartością krytyczną.
Podejmij decyzję i zinterpretuj ją w kontekście zadania.

Statystyka testowa zależy od sytuacji. Test $z$ , test $t$ , test chi-kwadrat i wiele innych to przykłady testów hipotez. Nie istnieje jeden wzór dla całego testowania hipotez.

Co oznacza wartość $p$

Wartość $p$ to prawdopodobieństwo, przy założeniu, że $H_0$ jest prawdziwa i założenia testu są spełnione, uzyskania wyniku co najmniej tak skrajnego jak zaobserwowany.

Mała wartość $p$ oznacza, że dane byłyby nietypowe przy założeniu $H_0$ . Dlatego małe wartości $p$ traktuje się jako dowód przeciwko hipotezie zerowej.

Nie oznacza ona:

Prawdopodobieństwa, że $H_0$ jest fałszywa.
Prawdopodobieństwa, że wynik pojawił się „przez przypadek” w potocznym, nieprecyzyjnym sensie.
Wielkości ani znaczenia efektu.

Główne rodzaje testów hipotez

Istnieją dwa przydatne sposoby grupowania testów.

Według kierunku

Test jednostronny sprawdza zmianę tylko w jednym kierunku.

Prawostronny: wartości większe niż te wynikające z hipotezy zerowej wspierają $H_1$ .
Lewostronny: wartości mniejsze niż te wynikające z hipotezy zerowej wspierają $H_1$ .

Test dwustronny sprawdza różnicę w obu kierunkach. Jeśli $H_1$ brzmi „nie jest równe”, obszar odrzucenia jest podzielony między oba ogony rozkładu.

Według rodzaju danych

Test $z$ stosuje się w niektórych zadaniach dotyczących średniej, gdy odchylenie standardowe populacji jest znane albo używa się uzasadnionego przybliżenia dla dużej próby.
Test $t$ jest często używany dla średnich, gdy odchylenie standardowe populacji jest nieznane, a warunki są rozsądnie spełnione.
Test chi-kwadrat stosuje się do danych kategorialnych w postaci liczebności.

Właściwy test zależy od typu zmiennej, sposobu doboru próby i przyjętych założeń. Częstym błędem jest wybieranie wzoru najpierw, a pytania dopiero potem.

Przykład obliczeniowy

Załóżmy, że maszyna napełniająca powinna dawać średnio $500$ mL na butelkę. Zespół kontroli jakości pobiera próbę $36$ butelek i otrzymuje średnią z próby równą $496$ mL.

Przyjmijmy na potrzeby tego przykładu, że odchylenie standardowe populacji jest znane i wynosi $\sigma = 12$ mL, a warunki losowania uzasadniają użycie jednostkowego testu $z$ dla jednej próby.

Ustalmy hipotezy:

H_0: \mu = 500

H_1: \mu < 500

Jest to test lewostronny, ponieważ problemem jest zbyt małe napełnianie.

Błąd standardowy wynosi

\frac{\sigma}{\sqrt{n}} = \frac{12}{\sqrt{36}} = 2

Zatem statystyka testowa to

z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} = \frac{496 - 500}{2} = -2

Jeśli $\alpha = 0.05$ dla lewostronnego testu $z$ , wartość krytyczna wynosi około $-1.645$ . Ponieważ $-2 < -1.645$ , wynik wpada do obszaru odrzucenia.

Decyzja jest więc taka, aby odrzucić $H_0$ na poziomie $5\%$ . W kontekście zadania próba dostarcza dowodów, że maszyna średnio niedopełnia butelki.

Ten wniosek zależy od założeń testu. Jeśli założenia są słabe, wniosek może być niewiarygodny, nawet jeśli obliczenia są poprawne.

Błędy I i II rodzaju

Testowanie hipotez zawsze wiąże się z ryzykiem błędu.

Błąd I rodzaju oznacza odrzucenie $H_0$ , mimo że jest prawdziwa. Jego prawdopodobieństwo jest kontrolowane przez $\alpha$ .

Błąd II rodzaju oznacza brak podstaw do odrzucenia $H_0$ , mimo że prawdziwa jest $H_1$ . Jego prawdopodobieństwo zwykle oznacza się przez $\beta$ .

Obniżenie $\alpha$ zmniejsza ryzyko fałszywych alarmów, ale może też utrudnić wykrycie rzeczywistych efektów, jeśli nic innego się nie zmieni. To jeden z powodów, dla których liczebność próby ma znaczenie.

Częste błędy

Jednym z częstych błędów jest twierdzenie, że wynik nieistotny statystycznie dowodzi braku efektu. Zwykle oznacza tylko, że dane nie były wystarczająco mocne, aby go wykryć.

Innym błędem jest traktowanie istotności statystycznej jako praktycznej ważności. Bardzo mały efekt może być istotny statystycznie w bardzo dużej próbie.

Ludzie źle stosują też testy, ignorując założenia dotyczące niezależności, kształtu rozkładu, wariancji albo typu danych. Dobrze wyglądająca wartość $p$ nie uratuje źle dobranego testu.

Kiedy stosuje się testowanie hipotez

Testowanie hipotez stosuje się w nauce, produkcji, medycynie, badaniach ankietowych, testach A/B i analizie polityk publicznych. Cel zwykle jest ten sam: zdecydować, czy próba dostarcza wystarczających dowodów, by podważyć domyślne twierdzenie.

W praktyce dobre testowanie nie polega tylko na samych obliczeniach. Wymaga też sensownej hipotezy zerowej, dobrze uzasadnionego planu badania i interpretacji zgodnej z tym, co test naprawdę może powiedzieć.

Spróbuj samodzielnie

Weź ten sam przykład z napełnianiem butelek, ale zmień średnią z próby na $498$ mL. Oblicz ponownie statystykę testową i sprawdź, czy decyzja zmienia się przy $\alpha = 0.05$ . To szybki sposób, by zobaczyć, jak dowody stają się silniejsze albo słabsze, gdy wynik z próby zbliża się do wartości z hipotezy zerowej.

Potrzebujesz pomocy z zadaniem?

Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.

Otwórz GPAI Solver →