Analiza regresji — regresja prosta, wieloraka i logistyczna

Analiza regresji wyjaśnia, jak zmienia się wynik, gdy zmienia się jeden lub więcej predyktorów. Prostej regresji liniowej używa się przy jednym predyktorze i wyniku liczbowym, wielorakiej regresji liniowej przy kilku predyktorach i wyniku liczbowym, a regresji logistycznej przy wyniku binarnym, takim jak zdane/niezdane.

To rozróżnienie szybko odpowiada na najważniejsze pytanie:

Prosta regresja liniowa: jeden predyktor, wynik liczbowy.
Wieloraka regresja liniowa: kilka predyktorów, wynik liczbowy.
Regresja logistyczna: wynik binarny, taki jak tak/nie, zdane/niezdane lub kliknął/nie kliknął.

Potem zaczyna się właściwa interpretacja. Współczynnik znaczy dokładnie to, co myślisz, tylko wtedy, gdy model pasuje do typu wyniku i w rozsądny sposób opisuje dane.

Co robi analiza regresji

Regresja nie polega tylko na narysowaniu prostej przez punkty. Tworzy regułę, która łączy predyktory z oczekiwanym wynikiem, dzięki czemu można wyjaśniać wzorce albo tworzyć prognozy.

W regresji liniowej ta reguła ma postać modelu liniowego dla wartości oczekiwanej wyniku. W regresji logistycznej model buduje się dla prawdopodobieństw, więc przewidywane wartości pozostają między $0$ a $1$ .

Prosta regresja liniowa: jeden predyktor, wynik liczbowy

Prosta regresja liniowa używa jednego predyktora $x$ i jednego wyniku liczbowego $y$ :

\hat{y} = b_0 + b_1x

Tutaj $\hat{y}$ to przewidywany wynik, $b_0$ to wyraz wolny, a $b_1$ to współczynnik kierunkowy.

Współczynnik kierunkowy $b_1$ mówi, o ile przewidywany wynik $y$ zmienia się przy wzroście $x$ o jedną jednostkę, jeśli zależność liniowa jest rozsądnym przybliżeniem w interesującym nas zakresie.

Wieloraka regresja liniowa: kilka predyktorów, jeden wynik liczbowy

Wieloraka regresja liniowa zachowuje tę samą podstawową ideę, ale używa więcej niż jednego predyktora:

\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

To przydatne wtedy, gdy jeden predyktor to zbyt duże uproszczenie. Rzeczywiste wyniki często zależą jednocześnie od kilku czynników.

Kluczowa zmiana w interpretacji jest ważna: $b_1$ to przewidywana zmiana w $y$ przy wzroście $x_1$ o jedną jednostkę, przy założeniu, że pozostałe uwzględnione predyktory są stałe.

To właśnie warunek „przy stałych pozostałych predyktorach” odróżnia regresję wieloraką od serii porównań jednej zmiennej.

Regresja logistyczna: wyniki binarne i prawdopodobieństwa

Regresja logistyczna służy do wyniku binarnego, a nie liczbowego. Jeśli wynik ma postać na przykład przyjęty/nieprzyjęty, odszedł/pozostał albo zdał/nie zdał, regresja liniowa zwykle nie jest właściwym narzędziem.

Zamiast modelować sam wynik jako linię prostą, regresja logistyczna modeluje logarytm ilorazu szans wyniku:

\log\left(\frac{p}{1-p}\right) = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

gdzie $p = P(Y=1 \mid x_1, x_2, \ldots, x_p)$ .

Lewa strona to logarytm ilorazu szans, a nie samo prawdopodobieństwo. To ważne, ponieważ prawdopodobieństwa muszą pozostawać między $0$ a $1$ : zwykły model liniowy może przewidywać niemożliwe wartości, takie jak $1.2$ albo $-0.1$ , ale regresja logistyczna tego nie robi.

Przykład: przewidywanie wyniku punktowego a przewidywanie zdane/niezdane

Załóżmy, że nauczyciel chce zbadać wyniki uczniów.

Jeśli wynikiem jest liczba punktów z egzaminu, a jedynym predyktorem jest liczba godzin nauki, prosty model liniowy może mieć postać

\hat{y} = 42 + 5x

Jeśli uczeń uczy się przez $6$ godzin, przewidywany wynik to

\hat{y} = 42 + 5(6) = 72

Tutaj współczynnik kierunkowy mówi, że przewidywany wynik rośnie o $5$ punktów z każdą dodatkową godziną nauki, jeśli model liniowy jest rozsądnym dopasowaniem.

Załóżmy teraz, że nauczyciel uwzględnia także liczbę godzin snu i liczbę rozwiązanych quizów ćwiczeniowych. Model regresji wielorakiej może mieć postać

\hat{y} = 20 + 4x_1 + 2x_2 + 1.5x_3

gdzie $x_1$ to liczba godzin nauki, $x_2$ to liczba godzin snu, a $x_3$ to liczba ukończonych quizów ćwiczeniowych.

Współczynnik $4$ ma teraz bardziej precyzyjne znaczenie: to przewidywana zmiana wyniku przy jednej dodatkowej godzinie nauki, przy stałej liczbie godzin snu i quizów ćwiczeniowych.

Teraz zmieńmy pytanie. Zamiast przewidywać liczbę punktów, załóżmy, że nauczyciel chce oszacować prawdopodobieństwo, że uczeń zda. To oznacza wynik binarny, więc naturalnym wyborem jest regresja logistyczna:

\log\left(\frac{p}{1-p}\right) = -6 + 0.8x_1 + 0.5x_2

Jeśli uczeń uczy się $6$ godzin i śpi $7$ godzin, to

-6 + 0.8(6) + 0.5(7) = 2.3

więc przewidywane prawdopodobieństwo wynosi

p = \frac{1}{1 + e^{-2.3}} \approx 0.91

Ten model przewiduje około $91\%$ szans na zdanie. Dokładne liczby są tu tylko przykładem. Kluczowa idea jest taka, że gdy wynik zmienia się z liczby punktów na zdane/niezdane, rodzina modeli regresji też powinna się zmienić.

Częste błędy w analizie regresji

Używanie regresji liniowej dla wyniku binarnego

Jeśli wynik przyjmuje tylko wartości $0$ lub $1$ , regresja logistyczna jest zwykle bardziej odpowiednia, ponieważ została zaprojektowana do modelowania prawdopodobieństw. Regresję liniową można stosować w niektórych szczególnych sytuacjach jako przybliżenie, ale może też dawać słabe przewidywania prawdopodobieństwa.

Traktowanie regresji jako dowodu przyczynowości

Regresja może opisywać związek i wspierać przewidywanie. Sama w sobie nie dowodzi, że zmiana jednej zmiennej powoduje zmianę wyniku.

Ignorowanie założeń modelu

Współczynnik znaczy dokładnie to, co myślisz, tylko wtedy, gdy wybrany model jest rozsądnym dopasowaniem. W regresji liniowej często oznacza to sprawdzenie, czy podsumowanie linią prostą ma sens i czy błędy nie pokazują wzorca, którego model nie uchwycił.

Nadinterpretacja współczynników w regresji wielorakiej

W regresji wielorakiej współczynnik jest warunkowy względem pozostałych uwzględnionych predyktorów. Jeśli brakuje ważnych zmiennych albo predyktory są ze sobą silnie powiązane, interpretacja staje się mniej stabilna.

Gdzie stosuje się analizę regresji

Regresję stosuje się wtedy, gdy chcesz wyjaśnić zmienność, oszacować zależności warunkowe albo tworzyć przewidywania na podstawie danych.

Spotkasz ją w prognozowaniu biznesowym, medycynie, naukach społecznych, kontroli jakości, edukacji i uczeniu maszynowym. Dokładna postać zależy od wyniku: wyniki liczbowe często prowadzą do modeli liniowych, a wyniki binarne często do modeli logistycznych.

Jak wybrać właściwy model regresji

Najpierw zadaj sobie dwa pytania:

Czy wynik jest liczbowy czy binarny?
Ile predyktorów chcę uwzględnić?

Jeśli wynik jest liczbowy, zacznij od regresji liniowej. Jeśli jest jeden predyktor, to prosta regresja liniowa. Jeśli jest ich kilka, to wieloraka regresja liniowa.

Jeśli wynik jest binarny, zacznij od regresji logistycznej.

To nie gwarantuje, że model będzie dobry, ale szybko kieruje cię do właściwej rodziny modeli.

Spróbuj podobnego zadania

Weź jeden mały zbiór danych i zadaj o nim dwa różne pytania. Najpierw przewiduj wynik liczbowy, na przykład liczbę punktów. Potem zamień wynik na wersję binarną, na przykład zdane albo niezdane. Takie porównanie obok siebie to jeden z najszybszych sposobów, by naprawdę zrozumieć analizę regresji.

Potrzebujesz pomocy z zadaniem?

Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.

Otwórz GPAI Solver →