Współczynnik korelacji zwykle oznacza współczynnik korelacji Pearsona, zapisywany jako . Mierzy on kierunek i siłę liniowej zależności między dwiema zmiennymi liczbowymi.
Jeśli jest dodatnie, zmienne mają tendencję do wspólnego wzrostu. Jeśli jest ujemne, jedna zmienna ma tendencję do spadku, gdy druga rośnie. Jeśli jest bliskie , współczynnik Pearsona wskazuje, że wzorzec liniowy jest słaby, ale niekoniecznie oznacza to całkowity brak zależności.
Współczynnik Pearsona jest najbardziej użyteczny, gdy dane występują w parach, obie zmienne są liczbowe, a wzorzec, który chcesz podsumować, ma postać trendu liniowego.
Co mówi współczynnik korelacji
Współczynnik Pearsona jest standaryzowaną miarą tego, jak dwie zmienne zmieniają się razem. Dla próby sparowanych danych wzór ma postać
Licznik jest dodatni, gdy zmienne mają tendencję do poruszania się w tym samym kierunku, a ujemny, gdy mają tendencję do poruszania się w przeciwnych kierunkach. Mianownik przeskalowuje tę wspólną zmienność z użyciem rozproszenia każdej zmiennej.
Gdy współczynnik Pearsona jest określony, musi spełniać warunek
Jeśli jedna ze zmiennych w ogóle się nie zmienia, mianownik staje się równy , więc współczynnik Pearsona jest nieokreślony.
Jak interpretować wartości dodatnie, ujemne i bliskie zeru
Zacznij od znaku:
- : dodatnia zależność liniowa
- : ujemna zależność liniowa
- : brak zależności liniowej
Następnie spójrz na wartość . Wartości bliższe oznaczają, że punkty leżą bliżej wzorca prostej. Wartości bliższe oznaczają, że wzorzec liniowy jest słabszy.
Uważaj na etykiety takie jak „słaba”, „umiarkowana” czy „silna”. Te progi zależą od kontekstu. W jednej dziedzinie może mieć znaczenie. W innej może być zbyt małe, by uzasadniać decyzję.
Najbezpieczniej jest odczytywać razem z wykresem rozrzutu. Liczba jest podsumowaniem widocznego wzorca; nie powinna zastępować samego wykresu.
Przykład obliczenia:
Załóżmy, że sparowane dane to
Najpierw oblicz średnie:
Teraz wypisz odchylenia od średnich:
- Dla :
- Dla :
Pomnóż sparowane odchylenia i dodaj:
Teraz oblicz dwie sumy kwadratów:
Zatem
To mówi nam, że w tej próbie występuje silna dodatnia zależność liniowa. Gdy rośnie, zwykle też rośnie, a punkty leżałyby dość blisko prostej o dodatnim nachyleniu.
Częste błędy przy interpretacji korelacji
Traktowanie korelacji jak przyczynowości
Wysoka korelacja nie dowodzi, że jedna zmienna powoduje drugą. Na obie może wpływać trzeci czynnik albo zależność może być przypadkowa w obserwowanych danych.
Zapominanie, że współczynnik Pearsona jest liniowy
Współczynnik Pearsona dobrze mierzy tylko zależność liniową. Zależność krzywoliniowa może dawać małą korelację, nawet jeśli zmienne są wyraźnie powiązane.
Ignorowanie wartości odstających
Jeden nietypowy punkt może mocno zmienić wartość . Jeśli na wykresie rozrzutu jest wartość odstająca, korelacja może dawać mylący obraz ogólnego wzorca.
Używanie współczynnika Pearsona, gdy sytuacja do niego nie pasuje
Współczynnik Pearsona jest przeznaczony do sparowanych danych liczbowych i zależności liniowej. Jeśli jedna zmienna jest kategoryczna albo wzorzec jest wyraźnie krzywoliniowy, ten współczynnik może nie odpowiadać na pytanie, które naprawdę Cię interesuje.
Nadinterpretacja wartości bliskiej zeru
Wartość bliska oznacza „niewielką zależność liniową”, a nie „brak jakiejkolwiek zależności”.
Kiedy stosuje się współczynnik korelacji Pearsona
Współczynnik Pearsona jest powszechnie używany w statystyce, nauce, ekonomii, badaniach społecznych i uczeniu maszynowym jako szybkie podsumowanie sparowanych danych liczbowych. Jest najbardziej przydatny wtedy, gdy chcesz sprawdzić, czy występuje wzorzec liniowy, zanim przejdziesz do modelu takiego jak regresja liniowa.
W praktyce najpierw warto narysować wykres rozrzutu. Współczynnik jest podsumowaniem, a nie zamiennikiem oglądania danych.
Spróbuj podobnego zadania
Weź mały zbiór danych, który już rozumiesz, narysuj punkty i oszacuj, czy trend wygląda na dodatni, ujemny czy niejasny, zanim obliczysz . To szybkie porównanie jest jednym z najlepszych sposobów na zbudowanie intuicji, co naprawdę mówi współczynnik korelacji.
Jeśli chcesz pójść o krok dalej, przeanalizuj te same dane za pomocą prostej regresji liniowej. Dzięki temu łatwiej zobaczyć, jak korelacja i przewidywanie są ze sobą powiązane, ale nie są tym samym.
Potrzebujesz pomocy z zadaniem?
Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.
Otwórz GPAI Solver →