Regresja liniowa to sposób opisywania, jak jedna zmienna zmienia się wraz z drugą, za pomocą prostej najlepszego dopasowania. W prostej regresji liniowej, z jedną zmienną wejściową i jedną zmienną wyjściową , model ma postać
Tutaj to wartość przewidywana, to nachylenie, a to wyraz wolny. Najczęściej stosowaną metodą dopasowania jest klasyczna metoda najmniejszych kwadratów, która wybiera prostą tak, aby suma kwadratów reszt była jak najmniejsza:
Jeśli potrzebujesz tylko głównej idei, zapamiętaj to: nachylenie mówi, o ile model przewiduje zmianę przy wzroście o jedną jednostkę, o ile model liniowy jest sensownym dopasowaniem.
Równanie regresji liniowej: co mówi
Nachylenie mówi o przewidywanej zmianie , gdy wzrasta o , jeśli model liniowy rozsądnie opisuje dane. Wyraz wolny to przewidywana wartość , gdy .
Słowo „przewidywana” ma tu znaczenie. Prosta regresji zwykle nie przechodzi przez każdy punkt. Zamiast tego równoważy błędy dla wszystkich punktów, więc podsumowuje trend, a nie idealnie odwzorowuje każdą obserwację.
Wzory regresji liniowej na i
W prostej regresji liniowej, jeśli wartości nie są wszystkie takie same, współczynniki najmniejszych kwadratów można zapisać jako
oraz
Tutaj to średnia wartości , a to średnia wartości . Te wzory dotyczą prostej regresji liniowej. Jeśli masz więcej niż jedną zmienną wejściową, sposób zapisu się zmienia.
Dlaczego metoda najmniejszych kwadratów używa kwadratów reszt
Pomyśl o punktach danych jak o chmurze punktów na wykresie rozrzutu. W pobliżu takiej chmury można poprowadzić wiele prostych. Regresja liniowa wybiera tę prostą, która sprawia, że pionowe odchylenia, zwane resztami, są ogólnie jak najmniejsze.
Podnoszenie reszt do kwadratu daje dwie korzyści. Po pierwsze, dodatnie i ujemne błędy nie znoszą się wzajemnie. Po drugie, większe odchylenia dostają większą wagę.
Przykład prostej regresji liniowej
Załóżmy, że punkty danych to , , i . Dopasujemy prostą regresji liniowej.
Najpierw oblicz średnie:
Teraz oblicz nachylenie:
Następnie oblicz wyraz wolny:
Zatem równanie regresji ma postać
Jeśli , model przewiduje
Możesz też sprawdzić jedną resztę. Dla wartość przewidywana wynosi
Wartość rzeczywista to , więc reszta wynosi
Ten punkt leży jednostki poniżej prostej regresji. Jedna reszta nie mówi jeszcze, czy cały model jest dobry, ale pokazuje, jak regresja mierzy błąd.
Typowe błędy w regresji liniowej
Jednym z błędów jest założenie, że prosta musi przechodzić przez każdy punkt. Regresja dotyczy najlepszego dopasowania, a nie dopasowania idealnego.
Innym błędem jest odczytywanie nachylenia jako dokładnej reguły dla każdego punktu danych. Nachylenie opisuje średnią przewidywaną zmianę wynikającą z modelu.
Trzecim błędem jest traktowanie regresji jako dowodu przyczynowości. Silny wzorzec liniowy może wspierać przewidywanie lub opisywać zależność, ale sam w sobie nie wyjaśnia, dlaczego zmienne zmieniają się razem.
Łatwo też zbyt mocno ufać przewidywaniom poza zakresem zaobserwowanych danych. Ekstrapolacja może zawodzić nawet wtedy, gdy dopasowana prosta wygląda dobrze w pierwotnym zakresie.
Kiedy stosować regresję liniową
Regresję liniową stosuje się wtedy, gdy przydatne jest podsumowanie zależności prostą i gdy relacja jest przynajmniej w przybliżeniu liniowa w interesującym cię zakresie. Typowe zastosowania to szacowanie ceny na podstawie rozmiaru, wyniku na podstawie czasu nauki albo wielkości wyjściowej na podstawie wejściowej w stabilnych warunkach.
Jest ona szczególnie użyteczna, gdy chcesz mieć model łatwy do interpretacji. Nachylenie, wyraz wolny i reszty są na tyle proste, że można je wyjaśnić bez ukrywania działania modelu.
Szybka kontrola, zanim zaufasz prostej
Zanim użyjesz prostej regresji, zadaj sobie dwa pytania. Czy wykres rozrzutu wygląda w przybliżeniu liniowo? Czy kontekst sprawia, że nachylenie ma sens, zamiast wprowadzać w błąd? Jeśli na któreś z tych pytań odpowiedź brzmi nie, lepszy może być inny model.
Spróbuj podobnego zadania
Wybierz cztery punkty, naszkicuj je i dopasuj prostą za pomocą kalkulatora lub programu. Następnie porównaj wartości przewidywane z rzeczywistymi. Analiza reszt jest często najszybszym sposobem, by zrozumieć, co naprawdę robi prosta regresji.
Potrzebujesz pomocy z zadaniem?
Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.
Otwórz GPAI Solver →