Regresja liniowa to sposób opisywania, jak jedna zmienna zmienia się wraz z drugą, za pomocą prostej najlepszego dopasowania. W prostej regresji liniowej, z jedną zmienną wejściową xx i jedną zmienną wyjściową yy, model ma postać

y^=b0+b1x\hat{y} = b_0 + b_1x

Tutaj y^\hat{y} to wartość przewidywana, b1b_1 to nachylenie, a b0b_0 to wyraz wolny. Najczęściej stosowaną metodą dopasowania jest klasyczna metoda najmniejszych kwadratów, która wybiera prostą tak, aby suma kwadratów reszt była jak najmniejsza:

i=1n(yiy^i)2=i=1n(yi(b0+b1xi))2\sum_{i=1}^n \left(y_i - \hat{y}_i\right)^2 = \sum_{i=1}^n \left(y_i - (b_0 + b_1x_i)\right)^2

Jeśli potrzebujesz tylko głównej idei, zapamiętaj to: nachylenie mówi, o ile model przewiduje zmianę yy przy wzroście xx o jedną jednostkę, o ile model liniowy jest sensownym dopasowaniem.

Równanie regresji liniowej: co mówi

Nachylenie b1b_1 mówi o przewidywanej zmianie yy, gdy xx wzrasta o 11, jeśli model liniowy rozsądnie opisuje dane. Wyraz wolny b0b_0 to przewidywana wartość yy, gdy x=0x = 0.

Słowo „przewidywana” ma tu znaczenie. Prosta regresji zwykle nie przechodzi przez każdy punkt. Zamiast tego równoważy błędy dla wszystkich punktów, więc podsumowuje trend, a nie idealnie odwzorowuje każdą obserwację.

Wzory regresji liniowej na b0b_0 i b1b_1

W prostej regresji liniowej, jeśli wartości xx nie są wszystkie takie same, współczynniki najmniejszych kwadratów można zapisać jako

b1=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2b_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}

oraz

b0=yˉb1xˉb_0 = \bar{y} - b_1\bar{x}

Tutaj xˉ\bar{x} to średnia wartości xx, a yˉ\bar{y} to średnia wartości yy. Te wzory dotyczą prostej regresji liniowej. Jeśli masz więcej niż jedną zmienną wejściową, sposób zapisu się zmienia.

Dlaczego metoda najmniejszych kwadratów używa kwadratów reszt

Pomyśl o punktach danych jak o chmurze punktów na wykresie rozrzutu. W pobliżu takiej chmury można poprowadzić wiele prostych. Regresja liniowa wybiera tę prostą, która sprawia, że pionowe odchylenia, zwane resztami, są ogólnie jak najmniejsze.

Podnoszenie reszt do kwadratu daje dwie korzyści. Po pierwsze, dodatnie i ujemne błędy nie znoszą się wzajemnie. Po drugie, większe odchylenia dostają większą wagę.

Przykład prostej regresji liniowej

Załóżmy, że punkty danych to (1,2)(1,2), (2,2)(2,2), (3,4)(3,4) i (4,4)(4,4). Dopasujemy prostą regresji liniowej.

Najpierw oblicz średnie:

xˉ=1+2+3+44=2.5\bar{x} = \frac{1+2+3+4}{4} = 2.5 yˉ=2+2+4+44=3\bar{y} = \frac{2+2+4+4}{4} = 3

Teraz oblicz nachylenie:

b1=(1.5)(1)+(0.5)(1)+(0.5)(1)+(1.5)(1)(1.5)2+(0.5)2+(0.5)2+(1.5)2b_1 = \frac{(-1.5)(-1)+(-0.5)(-1)+(0.5)(1)+(1.5)(1)}{(-1.5)^2+(-0.5)^2+(0.5)^2+(1.5)^2} b1=45=0.8b_1 = \frac{4}{5} = 0.8

Następnie oblicz wyraz wolny:

b0=yˉb1xˉ=30.8(2.5)=1b_0 = \bar{y} - b_1\bar{x} = 3 - 0.8(2.5) = 1

Zatem równanie regresji ma postać

y^=1+0.8x\hat{y} = 1 + 0.8x

Jeśli x=5x=5, model przewiduje

y^=1+0.8(5)=5\hat{y} = 1 + 0.8(5) = 5

Możesz też sprawdzić jedną resztę. Dla x=2x=2 wartość przewidywana wynosi

y^=1+0.8(2)=2.6\hat{y} = 1 + 0.8(2) = 2.6

Wartość rzeczywista to 22, więc reszta wynosi

yy^=22.6=0.6y-\hat{y} = 2 - 2.6 = -0.6

Ten punkt leży 0.60.6 jednostki poniżej prostej regresji. Jedna reszta nie mówi jeszcze, czy cały model jest dobry, ale pokazuje, jak regresja mierzy błąd.

Typowe błędy w regresji liniowej

Jednym z błędów jest założenie, że prosta musi przechodzić przez każdy punkt. Regresja dotyczy najlepszego dopasowania, a nie dopasowania idealnego.

Innym błędem jest odczytywanie nachylenia jako dokładnej reguły dla każdego punktu danych. Nachylenie opisuje średnią przewidywaną zmianę wynikającą z modelu.

Trzecim błędem jest traktowanie regresji jako dowodu przyczynowości. Silny wzorzec liniowy może wspierać przewidywanie lub opisywać zależność, ale sam w sobie nie wyjaśnia, dlaczego zmienne zmieniają się razem.

Łatwo też zbyt mocno ufać przewidywaniom poza zakresem zaobserwowanych danych. Ekstrapolacja może zawodzić nawet wtedy, gdy dopasowana prosta wygląda dobrze w pierwotnym zakresie.

Kiedy stosować regresję liniową

Regresję liniową stosuje się wtedy, gdy przydatne jest podsumowanie zależności prostą i gdy relacja jest przynajmniej w przybliżeniu liniowa w interesującym cię zakresie. Typowe zastosowania to szacowanie ceny na podstawie rozmiaru, wyniku na podstawie czasu nauki albo wielkości wyjściowej na podstawie wejściowej w stabilnych warunkach.

Jest ona szczególnie użyteczna, gdy chcesz mieć model łatwy do interpretacji. Nachylenie, wyraz wolny i reszty są na tyle proste, że można je wyjaśnić bez ukrywania działania modelu.

Szybka kontrola, zanim zaufasz prostej

Zanim użyjesz prostej regresji, zadaj sobie dwa pytania. Czy wykres rozrzutu wygląda w przybliżeniu liniowo? Czy kontekst sprawia, że nachylenie ma sens, zamiast wprowadzać w błąd? Jeśli na któreś z tych pytań odpowiedź brzmi nie, lepszy może być inny model.

Spróbuj podobnego zadania

Wybierz cztery punkty, naszkicuj je i dopasuj prostą za pomocą kalkulatora lub programu. Następnie porównaj wartości przewidywane z rzeczywistymi. Analiza reszt jest często najszybszym sposobem, by zrozumieć, co naprawdę robi prosta regresji.

Potrzebujesz pomocy z zadaniem?

Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.

Otwórz GPAI Solver →