Współczynnik korelacji — r Pearsona i interpretacja

Współczynnik korelacji zwykle oznacza współczynnik korelacji Pearsona, zapisywany jako $r$ . Mierzy on kierunek i siłę liniowej zależności między dwiema zmiennymi liczbowymi.

Jeśli $r$ jest dodatnie, zmienne mają tendencję do wspólnego wzrostu. Jeśli $r$ jest ujemne, jedna zmienna ma tendencję do spadku, gdy druga rośnie. Jeśli $r$ jest bliskie $0$ , współczynnik $r$ Pearsona wskazuje, że wzorzec liniowy jest słaby, ale niekoniecznie oznacza to całkowity brak zależności.

Współczynnik $r$ Pearsona jest najbardziej użyteczny, gdy dane występują w parach, obie zmienne są liczbowe, a wzorzec, który chcesz podsumować, ma postać trendu liniowego.

Co mówi współczynnik korelacji

Współczynnik $r$ Pearsona jest standaryzowaną miarą tego, jak dwie zmienne zmieniają się razem. Dla próby sparowanych danych wzór ma postać

r = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \sum_{i=1}^n (y_i-\bar{y})^2}}

Licznik jest dodatni, gdy zmienne mają tendencję do poruszania się w tym samym kierunku, a ujemny, gdy mają tendencję do poruszania się w przeciwnych kierunkach. Mianownik przeskalowuje tę wspólną zmienność z użyciem rozproszenia każdej zmiennej.

Gdy współczynnik $r$ Pearsona jest określony, musi spełniać warunek

-1 \le r \le 1

Jeśli jedna ze zmiennych w ogóle się nie zmienia, mianownik staje się równy $0$ , więc współczynnik $r$ Pearsona jest nieokreślony.

Jak interpretować wartości dodatnie, ujemne i bliskie zeru

Zacznij od znaku:

$r > 0$ : dodatnia zależność liniowa
$r < 0$ : ujemna zależność liniowa
$r = 0$ : brak zależności liniowej

Następnie spójrz na wartość $|r|$ . Wartości bliższe $1$ oznaczają, że punkty leżą bliżej wzorca prostej. Wartości bliższe $0$ oznaczają, że wzorzec liniowy jest słabszy.

Uważaj na etykiety takie jak „słaba”, „umiarkowana” czy „silna”. Te progi zależą od kontekstu. W jednej dziedzinie $r = 0.3$ może mieć znaczenie. W innej może być zbyt małe, by uzasadniać decyzję.

Najbezpieczniej jest odczytywać $r$ razem z wykresem rozrzutu. Liczba jest podsumowaniem widocznego wzorca; nie powinna zastępować samego wykresu.

Przykład obliczenia: $r = 0.9$

Załóżmy, że sparowane dane to

(1,2),\ (2,3),\ (3,5),\ (4,4),\ (5,6)

Najpierw oblicz średnie:

\bar{x} = \frac{1+2+3+4+5}{5} = 3

\bar{y} = \frac{2+3+5+4+6}{5} = 4

Teraz wypisz odchylenia od średnich:

Dla $x$ : $-2, -1, 0, 1, 2$
Dla $y$ : $-2, -1, 1, 0, 2$

Pomnóż sparowane odchylenia i dodaj:

(-2)(-2) + (-1)(-1) + (0)(1) + (1)(0) + (2)(2) = 4 + 1 + 0 + 0 + 4 = 9

Teraz oblicz dwie sumy kwadratów:

\sum (x_i-\bar{x})^2 = 4+1+0+1+4 = 10

\sum (y_i-\bar{y})^2 = 4+1+1+0+4 = 10

Zatem

r = \frac{9}{\sqrt{10 \cdot 10}} = \frac{9}{10} = 0.9

To mówi nam, że w tej próbie występuje silna dodatnia zależność liniowa. Gdy $x$ rośnie, $y$ zwykle też rośnie, a punkty leżałyby dość blisko prostej o dodatnim nachyleniu.

Częste błędy przy interpretacji korelacji

Traktowanie korelacji jak przyczynowości

Wysoka korelacja nie dowodzi, że jedna zmienna powoduje drugą. Na obie może wpływać trzeci czynnik albo zależność może być przypadkowa w obserwowanych danych.

Zapominanie, że współczynnik $r$ Pearsona jest liniowy

Współczynnik $r$ Pearsona dobrze mierzy tylko zależność liniową. Zależność krzywoliniowa może dawać małą korelację, nawet jeśli zmienne są wyraźnie powiązane.

Ignorowanie wartości odstających

Jeden nietypowy punkt może mocno zmienić wartość $r$ . Jeśli na wykresie rozrzutu jest wartość odstająca, korelacja może dawać mylący obraz ogólnego wzorca.

Używanie współczynnika $r$ Pearsona, gdy sytuacja do niego nie pasuje

Współczynnik $r$ Pearsona jest przeznaczony do sparowanych danych liczbowych i zależności liniowej. Jeśli jedna zmienna jest kategoryczna albo wzorzec jest wyraźnie krzywoliniowy, ten współczynnik może nie odpowiadać na pytanie, które naprawdę Cię interesuje.

Nadinterpretacja wartości bliskiej zeru

Wartość bliska $0$ oznacza „niewielką zależność liniową”, a nie „brak jakiejkolwiek zależności”.

Kiedy stosuje się współczynnik korelacji Pearsona

Współczynnik $r$ Pearsona jest powszechnie używany w statystyce, nauce, ekonomii, badaniach społecznych i uczeniu maszynowym jako szybkie podsumowanie sparowanych danych liczbowych. Jest najbardziej przydatny wtedy, gdy chcesz sprawdzić, czy występuje wzorzec liniowy, zanim przejdziesz do modelu takiego jak regresja liniowa.

W praktyce najpierw warto narysować wykres rozrzutu. Współczynnik jest podsumowaniem, a nie zamiennikiem oglądania danych.

Spróbuj podobnego zadania

Weź mały zbiór danych, który już rozumiesz, narysuj punkty i oszacuj, czy trend wygląda na dodatni, ujemny czy niejasny, zanim obliczysz $r$ . To szybkie porównanie jest jednym z najlepszych sposobów na zbudowanie intuicji, co naprawdę mówi współczynnik korelacji.

Jeśli chcesz pójść o krok dalej, przeanalizuj te same dane za pomocą prostej regresji liniowej. Dzięki temu łatwiej zobaczyć, jak korelacja i przewidywanie są ze sobą powiązane, ale nie są tym samym.

Często zadawane pytania

Co mierzy współczynnik korelacji?: Współczynnik korelacji Pearsona $r$ mierzy kierunek i siłę liniowej zależności między dwiema zmiennymi liczbowymi.
Co oznacza korelacja równa $0$?: Oznacza to, że współczynnik $r$ Pearsona nie wykrywa liniowej zależności. Nie znaczy to automatycznie, że nie ma żadnej zależności.
Czy korelacja oznacza związek przyczynowy?: Nie. Nawet duża korelacja sama w sobie nie pokazuje, że jedna zmienna powoduje drugą.

Potrzebujesz pomocy z zadaniem?

Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.

Otwórz GPAI Solver →