Testowanie hipotez to sposób sprawdzania, czy dane z próby są zbyt niezgodne z początkowym założeniem. To początkowe założenie nazywa się hipotezą zerową i zapisuje jako .
Ta metoda nie dowodzi, że jest prawdziwa albo fałszywa. Zadaje węższe pytanie: gdyby była prawdziwa, czy tak skrajne dane byłyby na tyle nietypowe, że powinniśmy w nią zwątpić?
Główna idea
W każdym teście hipotez występują dwa konkurencyjne stwierdzenia:
- Hipoteza zerowa , czyli domyślne twierdzenie poddawane testowi.
- Hipoteza alternatywna lub , czyli to, co uznajesz za bardziej wiarygodne, jeśli dane dostarczą wystarczających dowodów przeciwko .
Następnie wybierasz poziom istotności , często , zanim spojrzysz na wynik. To próg określający, jak silnych dowodów wymagasz, aby odrzucić .
Możliwe są dwa wyniki:
- Odrzucenie : dane są wystarczająco niezgodne z modelem zerowym.
- Brak podstaw do odrzucenia : dane nie są na tyle mocne, by wykluczyć model zerowy.
„Brak podstaw do odrzucenia” nie oznacza tego samego co „uznanie za prawdziwą”. Oznacza tylko, że próba nie dostarczyła wystarczająco silnych dowodów przeciwko .
Typowe etapy
Schemat postępowania zwykle wygląda tak:
- Jasno sformułuj i .
- Wybierz oraz test pasujący do danych i założeń.
- Oblicz statystykę testową na podstawie próby.
- Zamień tę statystykę na wartość albo porównaj ją z wartością krytyczną.
- Podejmij decyzję i zinterpretuj ją w kontekście zadania.
Statystyka testowa zależy od sytuacji. Test , test , test chi-kwadrat i wiele innych to przykłady testów hipotez. Nie istnieje jeden wzór dla całego testowania hipotez.
Co oznacza wartość
Wartość to prawdopodobieństwo, przy założeniu, że jest prawdziwa i założenia testu są spełnione, uzyskania wyniku co najmniej tak skrajnego jak zaobserwowany.
Mała wartość oznacza, że dane byłyby nietypowe przy założeniu . Dlatego małe wartości traktuje się jako dowód przeciwko hipotezie zerowej.
Nie oznacza ona:
- Prawdopodobieństwa, że jest fałszywa.
- Prawdopodobieństwa, że wynik pojawił się „przez przypadek” w potocznym, nieprecyzyjnym sensie.
- Wielkości ani znaczenia efektu.
Główne rodzaje testów hipotez
Istnieją dwa przydatne sposoby grupowania testów.
Według kierunku
Test jednostronny sprawdza zmianę tylko w jednym kierunku.
- Prawostronny: wartości większe niż te wynikające z hipotezy zerowej wspierają .
- Lewostronny: wartości mniejsze niż te wynikające z hipotezy zerowej wspierają .
Test dwustronny sprawdza różnicę w obu kierunkach. Jeśli brzmi „nie jest równe”, obszar odrzucenia jest podzielony między oba ogony rozkładu.
Według rodzaju danych
- Test stosuje się w niektórych zadaniach dotyczących średniej, gdy odchylenie standardowe populacji jest znane albo używa się uzasadnionego przybliżenia dla dużej próby.
- Test jest często używany dla średnich, gdy odchylenie standardowe populacji jest nieznane, a warunki są rozsądnie spełnione.
- Test chi-kwadrat stosuje się do danych kategorialnych w postaci liczebności.
Właściwy test zależy od typu zmiennej, sposobu doboru próby i przyjętych założeń. Częstym błędem jest wybieranie wzoru najpierw, a pytania dopiero potem.
Przykład obliczeniowy
Załóżmy, że maszyna napełniająca powinna dawać średnio mL na butelkę. Zespół kontroli jakości pobiera próbę butelek i otrzymuje średnią z próby równą mL.
Przyjmijmy na potrzeby tego przykładu, że odchylenie standardowe populacji jest znane i wynosi mL, a warunki losowania uzasadniają użycie jednostkowego testu dla jednej próby.
Ustalmy hipotezy:
Jest to test lewostronny, ponieważ problemem jest zbyt małe napełnianie.
Błąd standardowy wynosi
Zatem statystyka testowa to
Jeśli dla lewostronnego testu , wartość krytyczna wynosi około . Ponieważ , wynik wpada do obszaru odrzucenia.
Decyzja jest więc taka, aby odrzucić na poziomie . W kontekście zadania próba dostarcza dowodów, że maszyna średnio niedopełnia butelki.
Ten wniosek zależy od założeń testu. Jeśli założenia są słabe, wniosek może być niewiarygodny, nawet jeśli obliczenia są poprawne.
Błędy I i II rodzaju
Testowanie hipotez zawsze wiąże się z ryzykiem błędu.
Błąd I rodzaju oznacza odrzucenie , mimo że jest prawdziwa. Jego prawdopodobieństwo jest kontrolowane przez .
Błąd II rodzaju oznacza brak podstaw do odrzucenia , mimo że prawdziwa jest . Jego prawdopodobieństwo zwykle oznacza się przez .
Obniżenie zmniejsza ryzyko fałszywych alarmów, ale może też utrudnić wykrycie rzeczywistych efektów, jeśli nic innego się nie zmieni. To jeden z powodów, dla których liczebność próby ma znaczenie.
Częste błędy
Jednym z częstych błędów jest twierdzenie, że wynik nieistotny statystycznie dowodzi braku efektu. Zwykle oznacza tylko, że dane nie były wystarczająco mocne, aby go wykryć.
Innym błędem jest traktowanie istotności statystycznej jako praktycznej ważności. Bardzo mały efekt może być istotny statystycznie w bardzo dużej próbie.
Ludzie źle stosują też testy, ignorując założenia dotyczące niezależności, kształtu rozkładu, wariancji albo typu danych. Dobrze wyglądająca wartość nie uratuje źle dobranego testu.
Kiedy stosuje się testowanie hipotez
Testowanie hipotez stosuje się w nauce, produkcji, medycynie, badaniach ankietowych, testach A/B i analizie polityk publicznych. Cel zwykle jest ten sam: zdecydować, czy próba dostarcza wystarczających dowodów, by podważyć domyślne twierdzenie.
W praktyce dobre testowanie nie polega tylko na samych obliczeniach. Wymaga też sensownej hipotezy zerowej, dobrze uzasadnionego planu badania i interpretacji zgodnej z tym, co test naprawdę może powiedzieć.
Spróbuj samodzielnie
Weź ten sam przykład z napełnianiem butelek, ale zmień średnią z próby na mL. Oblicz ponownie statystykę testową i sprawdź, czy decyzja zmienia się przy . To szybki sposób, by zobaczyć, jak dowody stają się silniejsze albo słabsze, gdy wynik z próby zbliża się do wartości z hipotezy zerowej.
Potrzebujesz pomocy z zadaniem?
Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.
Otwórz GPAI Solver →