Czym najprościej jest regresja liniowa?

Regresja liniowa dopasowuje prostą do danych, aby opisać lub przewidzieć, jak jedna zmienna zmienia się wraz ze zmianą drugiej.

Jakiego równania używa regresja liniowa?

W prostej regresji liniowej dopasowana prosta ma postać $\hat{y} = b_0 + b_1x$, gdzie $b_0$ to wyraz wolny, a $b_1$ to nachylenie.

Czy regresja liniowa dowodzi związku przyczynowo-skutkowego?

Nie. Prosta regresji może opisywać zależność i wspierać przewidywanie, ale sama w sobie nie dowodzi przyczynowości.

Regresja liniowa — równanie, wzór i przykłady

Regresja liniowa to sposób opisywania, jak jedna zmienna zmienia się wraz z drugą, za pomocą prostej najlepszego dopasowania. W prostej regresji liniowej, z jedną zmienną wejściową $x$ i jedną zmienną wyjściową $y$ , model ma postać

\hat{y} = b_0 + b_1x

Tutaj $\hat{y}$ to wartość przewidywana, $b_1$ to nachylenie, a $b_0$ to wyraz wolny. Najczęściej stosowaną metodą dopasowania jest klasyczna metoda najmniejszych kwadratów, która wybiera prostą tak, aby suma kwadratów reszt była jak najmniejsza:

\sum_{i=1}^n \left(y_i - \hat{y}_i\right)^2 = \sum_{i=1}^n \left(y_i - (b_0 + b_1x_i)\right)^2

Jeśli potrzebujesz tylko głównej idei, zapamiętaj to: nachylenie mówi, o ile model przewiduje zmianę $y$ przy wzroście $x$ o jedną jednostkę, o ile model liniowy jest sensownym dopasowaniem.

Równanie regresji liniowej: co mówi

Nachylenie $b_1$ mówi o przewidywanej zmianie $y$ , gdy $x$ wzrasta o $1$ , jeśli model liniowy rozsądnie opisuje dane. Wyraz wolny $b_0$ to przewidywana wartość $y$ , gdy $x = 0$ .

Słowo „przewidywana” ma tu znaczenie. Prosta regresji zwykle nie przechodzi przez każdy punkt. Zamiast tego równoważy błędy dla wszystkich punktów, więc podsumowuje trend, a nie idealnie odwzorowuje każdą obserwację.

Wzory regresji liniowej na $b_0$ i $b_1$

W prostej regresji liniowej, jeśli wartości $x$ nie są wszystkie takie same, współczynniki najmniejszych kwadratów można zapisać jako

b_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}

oraz

b_0 = \bar{y} - b_1\bar{x}

Tutaj $\bar{x}$ to średnia wartości $x$ , a $\bar{y}$ to średnia wartości $y$ . Te wzory dotyczą prostej regresji liniowej. Jeśli masz więcej niż jedną zmienną wejściową, sposób zapisu się zmienia.

Dlaczego metoda najmniejszych kwadratów używa kwadratów reszt

Pomyśl o punktach danych jak o chmurze punktów na wykresie rozrzutu. W pobliżu takiej chmury można poprowadzić wiele prostych. Regresja liniowa wybiera tę prostą, która sprawia, że pionowe odchylenia, zwane resztami, są ogólnie jak najmniejsze.

Podnoszenie reszt do kwadratu daje dwie korzyści. Po pierwsze, dodatnie i ujemne błędy nie znoszą się wzajemnie. Po drugie, większe odchylenia dostają większą wagę.

Przykład prostej regresji liniowej

Załóżmy, że punkty danych to $(1,2)$ , $(2,2)$ , $(3,4)$ i $(4,4)$ . Dopasujemy prostą regresji liniowej.

Najpierw oblicz średnie:

\bar{x} = \frac{1+2+3+4}{4} = 2.5

\bar{y} = \frac{2+2+4+4}{4} = 3

Teraz oblicz nachylenie:

b_1 = \frac{(-1.5)(-1)+(-0.5)(-1)+(0.5)(1)+(1.5)(1)}{(-1.5)^2+(-0.5)^2+(0.5)^2+(1.5)^2}

b_1 = \frac{4}{5} = 0.8

Następnie oblicz wyraz wolny:

b_0 = \bar{y} - b_1\bar{x} = 3 - 0.8(2.5) = 1

Zatem równanie regresji ma postać

\hat{y} = 1 + 0.8x

Jeśli $x=5$ , model przewiduje

\hat{y} = 1 + 0.8(5) = 5

Możesz też sprawdzić jedną resztę. Dla $x=2$ wartość przewidywana wynosi

\hat{y} = 1 + 0.8(2) = 2.6

Wartość rzeczywista to $2$ , więc reszta wynosi

y-\hat{y} = 2 - 2.6 = -0.6

Ten punkt leży $0.6$ jednostki poniżej prostej regresji. Jedna reszta nie mówi jeszcze, czy cały model jest dobry, ale pokazuje, jak regresja mierzy błąd.

Typowe błędy w regresji liniowej

Jednym z błędów jest założenie, że prosta musi przechodzić przez każdy punkt. Regresja dotyczy najlepszego dopasowania, a nie dopasowania idealnego.

Innym błędem jest odczytywanie nachylenia jako dokładnej reguły dla każdego punktu danych. Nachylenie opisuje średnią przewidywaną zmianę wynikającą z modelu.

Trzecim błędem jest traktowanie regresji jako dowodu przyczynowości. Silny wzorzec liniowy może wspierać przewidywanie lub opisywać zależność, ale sam w sobie nie wyjaśnia, dlaczego zmienne zmieniają się razem.

Łatwo też zbyt mocno ufać przewidywaniom poza zakresem zaobserwowanych danych. Ekstrapolacja może zawodzić nawet wtedy, gdy dopasowana prosta wygląda dobrze w pierwotnym zakresie.

Kiedy stosować regresję liniową

Regresję liniową stosuje się wtedy, gdy przydatne jest podsumowanie zależności prostą i gdy relacja jest przynajmniej w przybliżeniu liniowa w interesującym cię zakresie. Typowe zastosowania to szacowanie ceny na podstawie rozmiaru, wyniku na podstawie czasu nauki albo wielkości wyjściowej na podstawie wejściowej w stabilnych warunkach.

Jest ona szczególnie użyteczna, gdy chcesz mieć model łatwy do interpretacji. Nachylenie, wyraz wolny i reszty są na tyle proste, że można je wyjaśnić bez ukrywania działania modelu.

Szybka kontrola, zanim zaufasz prostej

Zanim użyjesz prostej regresji, zadaj sobie dwa pytania. Czy wykres rozrzutu wygląda w przybliżeniu liniowo? Czy kontekst sprawia, że nachylenie ma sens, zamiast wprowadzać w błąd? Jeśli na któreś z tych pytań odpowiedź brzmi nie, lepszy może być inny model.

Spróbuj podobnego zadania

Wybierz cztery punkty, naszkicuj je i dopasuj prostą za pomocą kalkulatora lub programu. Następnie porównaj wartości przewidywane z rzeczywistymi. Analiza reszt jest często najszybszym sposobem, by zrozumieć, co naprawdę robi prosta regresji.

Potrzebujesz pomocy z zadaniem?

Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.

Otwórz GPAI Solver →