Współczynnik korelacji zwykle oznacza współczynnik korelacji Pearsona, zapisywany jako rr. Mierzy on kierunek i siłę liniowej zależności między dwiema zmiennymi liczbowymi.

Jeśli rr jest dodatnie, zmienne mają tendencję do wspólnego wzrostu. Jeśli rr jest ujemne, jedna zmienna ma tendencję do spadku, gdy druga rośnie. Jeśli rr jest bliskie 00, współczynnik rr Pearsona wskazuje, że wzorzec liniowy jest słaby, ale niekoniecznie oznacza to całkowity brak zależności.

Współczynnik rr Pearsona jest najbardziej użyteczny, gdy dane występują w parach, obie zmienne są liczbowe, a wzorzec, który chcesz podsumować, ma postać trendu liniowego.

Co mówi współczynnik korelacji

Współczynnik rr Pearsona jest standaryzowaną miarą tego, jak dwie zmienne zmieniają się razem. Dla próby sparowanych danych wzór ma postać

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \sum_{i=1}^n (y_i-\bar{y})^2}}

Licznik jest dodatni, gdy zmienne mają tendencję do poruszania się w tym samym kierunku, a ujemny, gdy mają tendencję do poruszania się w przeciwnych kierunkach. Mianownik przeskalowuje tę wspólną zmienność z użyciem rozproszenia każdej zmiennej.

Gdy współczynnik rr Pearsona jest określony, musi spełniać warunek

1r1-1 \le r \le 1

Jeśli jedna ze zmiennych w ogóle się nie zmienia, mianownik staje się równy 00, więc współczynnik rr Pearsona jest nieokreślony.

Jak interpretować wartości dodatnie, ujemne i bliskie zeru

Zacznij od znaku:

  • r>0r > 0: dodatnia zależność liniowa
  • r<0r < 0: ujemna zależność liniowa
  • r=0r = 0: brak zależności liniowej

Następnie spójrz na wartość r|r|. Wartości bliższe 11 oznaczają, że punkty leżą bliżej wzorca prostej. Wartości bliższe 00 oznaczają, że wzorzec liniowy jest słabszy.

Uważaj na etykiety takie jak „słaba”, „umiarkowana” czy „silna”. Te progi zależą od kontekstu. W jednej dziedzinie r=0.3r = 0.3 może mieć znaczenie. W innej może być zbyt małe, by uzasadniać decyzję.

Najbezpieczniej jest odczytywać rr razem z wykresem rozrzutu. Liczba jest podsumowaniem widocznego wzorca; nie powinna zastępować samego wykresu.

Przykład obliczenia: r=0.9r = 0.9

Załóżmy, że sparowane dane to

(1,2), (2,3), (3,5), (4,4), (5,6)(1,2),\ (2,3),\ (3,5),\ (4,4),\ (5,6)

Najpierw oblicz średnie:

xˉ=1+2+3+4+55=3\bar{x} = \frac{1+2+3+4+5}{5} = 3 yˉ=2+3+5+4+65=4\bar{y} = \frac{2+3+5+4+6}{5} = 4

Teraz wypisz odchylenia od średnich:

  • Dla xx: 2,1,0,1,2-2, -1, 0, 1, 2
  • Dla yy: 2,1,1,0,2-2, -1, 1, 0, 2

Pomnóż sparowane odchylenia i dodaj:

(2)(2)+(1)(1)+(0)(1)+(1)(0)+(2)(2)=4+1+0+0+4=9(-2)(-2) + (-1)(-1) + (0)(1) + (1)(0) + (2)(2) = 4 + 1 + 0 + 0 + 4 = 9

Teraz oblicz dwie sumy kwadratów:

(xixˉ)2=4+1+0+1+4=10\sum (x_i-\bar{x})^2 = 4+1+0+1+4 = 10 (yiyˉ)2=4+1+1+0+4=10\sum (y_i-\bar{y})^2 = 4+1+1+0+4 = 10

Zatem

r=91010=910=0.9r = \frac{9}{\sqrt{10 \cdot 10}} = \frac{9}{10} = 0.9

To mówi nam, że w tej próbie występuje silna dodatnia zależność liniowa. Gdy xx rośnie, yy zwykle też rośnie, a punkty leżałyby dość blisko prostej o dodatnim nachyleniu.

Częste błędy przy interpretacji korelacji

Traktowanie korelacji jak przyczynowości

Wysoka korelacja nie dowodzi, że jedna zmienna powoduje drugą. Na obie może wpływać trzeci czynnik albo zależność może być przypadkowa w obserwowanych danych.

Zapominanie, że współczynnik rr Pearsona jest liniowy

Współczynnik rr Pearsona dobrze mierzy tylko zależność liniową. Zależność krzywoliniowa może dawać małą korelację, nawet jeśli zmienne są wyraźnie powiązane.

Ignorowanie wartości odstających

Jeden nietypowy punkt może mocno zmienić wartość rr. Jeśli na wykresie rozrzutu jest wartość odstająca, korelacja może dawać mylący obraz ogólnego wzorca.

Używanie współczynnika rr Pearsona, gdy sytuacja do niego nie pasuje

Współczynnik rr Pearsona jest przeznaczony do sparowanych danych liczbowych i zależności liniowej. Jeśli jedna zmienna jest kategoryczna albo wzorzec jest wyraźnie krzywoliniowy, ten współczynnik może nie odpowiadać na pytanie, które naprawdę Cię interesuje.

Nadinterpretacja wartości bliskiej zeru

Wartość bliska 00 oznacza „niewielką zależność liniową”, a nie „brak jakiejkolwiek zależności”.

Kiedy stosuje się współczynnik korelacji Pearsona

Współczynnik rr Pearsona jest powszechnie używany w statystyce, nauce, ekonomii, badaniach społecznych i uczeniu maszynowym jako szybkie podsumowanie sparowanych danych liczbowych. Jest najbardziej przydatny wtedy, gdy chcesz sprawdzić, czy występuje wzorzec liniowy, zanim przejdziesz do modelu takiego jak regresja liniowa.

W praktyce najpierw warto narysować wykres rozrzutu. Współczynnik jest podsumowaniem, a nie zamiennikiem oglądania danych.

Spróbuj podobnego zadania

Weź mały zbiór danych, który już rozumiesz, narysuj punkty i oszacuj, czy trend wygląda na dodatni, ujemny czy niejasny, zanim obliczysz rr. To szybkie porównanie jest jednym z najlepszych sposobów na zbudowanie intuicji, co naprawdę mówi współczynnik korelacji.

Jeśli chcesz pójść o krok dalej, przeanalizuj te same dane za pomocą prostej regresji liniowej. Dzięki temu łatwiej zobaczyć, jak korelacja i przewidywanie są ze sobą powiązane, ale nie są tym samym.

Potrzebujesz pomocy z zadaniem?

Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.

Otwórz GPAI Solver →