Analiza regresji wyjaśnia, jak zmienia się wynik, gdy zmienia się jeden lub więcej predyktorów. Prostej regresji liniowej używa się przy jednym predyktorze i wyniku liczbowym, wielorakiej regresji liniowej przy kilku predyktorach i wyniku liczbowym, a regresji logistycznej przy wyniku binarnym, takim jak zdane/niezdane.
To rozróżnienie szybko odpowiada na najważniejsze pytanie:
- Prosta regresja liniowa: jeden predyktor, wynik liczbowy.
- Wieloraka regresja liniowa: kilka predyktorów, wynik liczbowy.
- Regresja logistyczna: wynik binarny, taki jak tak/nie, zdane/niezdane lub kliknął/nie kliknął.
Potem zaczyna się właściwa interpretacja. Współczynnik znaczy dokładnie to, co myślisz, tylko wtedy, gdy model pasuje do typu wyniku i w rozsądny sposób opisuje dane.
Co robi analiza regresji
Regresja nie polega tylko na narysowaniu prostej przez punkty. Tworzy regułę, która łączy predyktory z oczekiwanym wynikiem, dzięki czemu można wyjaśniać wzorce albo tworzyć prognozy.
W regresji liniowej ta reguła ma postać modelu liniowego dla wartości oczekiwanej wyniku. W regresji logistycznej model buduje się dla prawdopodobieństw, więc przewidywane wartości pozostają między a .
Prosta regresja liniowa: jeden predyktor, wynik liczbowy
Prosta regresja liniowa używa jednego predyktora i jednego wyniku liczbowego :
Tutaj to przewidywany wynik, to wyraz wolny, a to współczynnik kierunkowy.
Współczynnik kierunkowy mówi, o ile przewidywany wynik zmienia się przy wzroście o jedną jednostkę, jeśli zależność liniowa jest rozsądnym przybliżeniem w interesującym nas zakresie.
Wieloraka regresja liniowa: kilka predyktorów, jeden wynik liczbowy
Wieloraka regresja liniowa zachowuje tę samą podstawową ideę, ale używa więcej niż jednego predyktora:
To przydatne wtedy, gdy jeden predyktor to zbyt duże uproszczenie. Rzeczywiste wyniki często zależą jednocześnie od kilku czynników.
Kluczowa zmiana w interpretacji jest ważna: to przewidywana zmiana w przy wzroście o jedną jednostkę, przy założeniu, że pozostałe uwzględnione predyktory są stałe.
To właśnie warunek „przy stałych pozostałych predyktorach” odróżnia regresję wieloraką od serii porównań jednej zmiennej.
Regresja logistyczna: wyniki binarne i prawdopodobieństwa
Regresja logistyczna służy do wyniku binarnego, a nie liczbowego. Jeśli wynik ma postać na przykład przyjęty/nieprzyjęty, odszedł/pozostał albo zdał/nie zdał, regresja liniowa zwykle nie jest właściwym narzędziem.
Zamiast modelować sam wynik jako linię prostą, regresja logistyczna modeluje logarytm ilorazu szans wyniku:
gdzie .
Lewa strona to logarytm ilorazu szans, a nie samo prawdopodobieństwo. To ważne, ponieważ prawdopodobieństwa muszą pozostawać między a : zwykły model liniowy może przewidywać niemożliwe wartości, takie jak albo , ale regresja logistyczna tego nie robi.
Przykład: przewidywanie wyniku punktowego a przewidywanie zdane/niezdane
Załóżmy, że nauczyciel chce zbadać wyniki uczniów.
Jeśli wynikiem jest liczba punktów z egzaminu, a jedynym predyktorem jest liczba godzin nauki, prosty model liniowy może mieć postać
Jeśli uczeń uczy się przez godzin, przewidywany wynik to
Tutaj współczynnik kierunkowy mówi, że przewidywany wynik rośnie o punktów z każdą dodatkową godziną nauki, jeśli model liniowy jest rozsądnym dopasowaniem.
Załóżmy teraz, że nauczyciel uwzględnia także liczbę godzin snu i liczbę rozwiązanych quizów ćwiczeniowych. Model regresji wielorakiej może mieć postać
gdzie to liczba godzin nauki, to liczba godzin snu, a to liczba ukończonych quizów ćwiczeniowych.
Współczynnik ma teraz bardziej precyzyjne znaczenie: to przewidywana zmiana wyniku przy jednej dodatkowej godzinie nauki, przy stałej liczbie godzin snu i quizów ćwiczeniowych.
Teraz zmieńmy pytanie. Zamiast przewidywać liczbę punktów, załóżmy, że nauczyciel chce oszacować prawdopodobieństwo, że uczeń zda. To oznacza wynik binarny, więc naturalnym wyborem jest regresja logistyczna:
Jeśli uczeń uczy się godzin i śpi godzin, to
więc przewidywane prawdopodobieństwo wynosi
Ten model przewiduje około szans na zdanie. Dokładne liczby są tu tylko przykładem. Kluczowa idea jest taka, że gdy wynik zmienia się z liczby punktów na zdane/niezdane, rodzina modeli regresji też powinna się zmienić.
Częste błędy w analizie regresji
Używanie regresji liniowej dla wyniku binarnego
Jeśli wynik przyjmuje tylko wartości lub , regresja logistyczna jest zwykle bardziej odpowiednia, ponieważ została zaprojektowana do modelowania prawdopodobieństw. Regresję liniową można stosować w niektórych szczególnych sytuacjach jako przybliżenie, ale może też dawać słabe przewidywania prawdopodobieństwa.
Traktowanie regresji jako dowodu przyczynowości
Regresja może opisywać związek i wspierać przewidywanie. Sama w sobie nie dowodzi, że zmiana jednej zmiennej powoduje zmianę wyniku.
Ignorowanie założeń modelu
Współczynnik znaczy dokładnie to, co myślisz, tylko wtedy, gdy wybrany model jest rozsądnym dopasowaniem. W regresji liniowej często oznacza to sprawdzenie, czy podsumowanie linią prostą ma sens i czy błędy nie pokazują wzorca, którego model nie uchwycił.
Nadinterpretacja współczynników w regresji wielorakiej
W regresji wielorakiej współczynnik jest warunkowy względem pozostałych uwzględnionych predyktorów. Jeśli brakuje ważnych zmiennych albo predyktory są ze sobą silnie powiązane, interpretacja staje się mniej stabilna.
Gdzie stosuje się analizę regresji
Regresję stosuje się wtedy, gdy chcesz wyjaśnić zmienność, oszacować zależności warunkowe albo tworzyć przewidywania na podstawie danych.
Spotkasz ją w prognozowaniu biznesowym, medycynie, naukach społecznych, kontroli jakości, edukacji i uczeniu maszynowym. Dokładna postać zależy od wyniku: wyniki liczbowe często prowadzą do modeli liniowych, a wyniki binarne często do modeli logistycznych.
Jak wybrać właściwy model regresji
Najpierw zadaj sobie dwa pytania:
- Czy wynik jest liczbowy czy binarny?
- Ile predyktorów chcę uwzględnić?
Jeśli wynik jest liczbowy, zacznij od regresji liniowej. Jeśli jest jeden predyktor, to prosta regresja liniowa. Jeśli jest ich kilka, to wieloraka regresja liniowa.
Jeśli wynik jest binarny, zacznij od regresji logistycznej.
To nie gwarantuje, że model będzie dobry, ale szybko kieruje cię do właściwej rodziny modeli.
Spróbuj podobnego zadania
Weź jeden mały zbiór danych i zadaj o nim dwa różne pytania. Najpierw przewiduj wynik liczbowy, na przykład liczbę punktów. Potem zamień wynik na wersję binarną, na przykład zdane albo niezdane. Takie porównanie obok siebie to jeden z najszybszych sposobów, by naprawdę zrozumieć analizę regresji.
Potrzebujesz pomocy z zadaniem?
Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.
Otwórz GPAI Solver →