Kowariancja mierzy, czy dwie zmienne mają tendencję do jednoczesnego przyjmowania wartości powyżej lub poniżej swoich średnich. Dodatnia kowariancja oznacza, że zmienne zwykle zmieniają się w tym samym kierunku względem swoich średnich. Ujemna kowariancja oznacza, że jedna z nich ma tendencję do bycia powyżej średniej wtedy, gdy druga jest poniżej średniej.

Dla większości uczniów i studentów najważniejsza jest ta idea: znak jest zwykle bardziej użyteczny niż sama surowa liczba. Wielkość kowariancji zależy od jednostek obu zmiennych, więc sama w sobie nie jest czystą miarą siły zależności.

Wzór na kowariancję dla próby i populacji

Dla próby danych sparowanych często używa się wzoru

sxy=1n1i=1n(xixˉ)(yiyˉ)s_{xy} = \frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})

Tutaj xˉ\bar{x} i yˉ\bar{y} to średnie z próby. Każdy iloczyn (xixˉ)(yiyˉ)(x_i-\bar{x})(y_i-\bar{y}) jest dodatni, gdy para leży po tej samej stronie obu średnich, a ujemny, gdy elementy pary leżą po przeciwnych stronach.

Jeśli pracujesz z całą populacją, a nie z próbą, w mianowniku zwykle występuje NN zamiast n1n-1:

Cov(X,Y)=1Ni=1N(xiμx)(yiμy)\mathrm{Cov}(X,Y) = \frac{1}{N}\sum_{i=1}^N (x_i-\mu_x)(y_i-\mu_y)

Używaj wersji dla próby przy danych z próby, a wersji dla populacji tylko wtedy, gdy dane reprezentują całą populację, którą chcesz opisać.

Jak odczytywać znak kowariancji

Kowariancja jest zbudowana na podstawie sparowanych odchyleń od średniej.

Jeśli oba odchylenia są dodatnie, ich iloczyn jest dodatni. Jeśli oba są ujemne, ich iloczyn też jest dodatni. Takie pary zwiększają kowariancję, ponieważ zmienne poruszają się razem względem swoich środków.

Jeśli jedno odchylenie jest dodatnie, a drugie ujemne, iloczyn jest ujemny. Takie pary obniżają kowariancję, ponieważ zmienne zmieniają się w przeciwnych kierunkach.

Można więc powiedzieć, że kowariancja to średnia „wspólnego ruchu wokół średniej”.

Przykład obliczeń: liczba godzin nauki i wyniki quizu

Załóżmy, że mała próba zawiera liczbę godzin nauki i wyniki quizu:

(1,70), (2,80), (3,90)(1,70),\ (2,80),\ (3,90)

Najpierw wyznacz średnie:

xˉ=1+2+33=2\bar{x} = \frac{1+2+3}{3} = 2 yˉ=70+80+903=80\bar{y} = \frac{70+80+90}{3} = 80

Teraz oblicz odchylenia i ich iloczyny:

  • Dla (1,70)(1,70): (12)(7080)=(1)(10)=10(1-2)(70-80) = (-1)(-10) = 10
  • Dla (2,80)(2,80): (22)(8080)=0(2-2)(80-80) = 0
  • Dla (3,90)(3,90): (32)(9080)=(1)(10)=10(3-2)(90-80) = (1)(10) = 10

Dodaj iloczyny:

10+0+10=2010 + 0 + 10 = 20

Ponieważ jest to kowariancja z próby, dzielimy przez n1=2n-1 = 2:

sxy=202=10s_{xy} = \frac{20}{2} = 10

Kowariancja jest dodatnia, więc w tej próbie zmienne zmieniają się razem. Więcej czasu poświęconego na naukę wiąże się tutaj z wyższymi wynikami quizu.

Ważne zastrzeżenie jest takie, że 1010 nie jest uniwersalną skalą siły zależności. Jej wartość zależy tutaj od jednostek: godzin razy punktów. Gdyby zmienić skalę pomiaru, kowariancja też by się zmieniła, nawet jeśli ogólny wzorzec pozostałby podobny.

Kowariancja a korelacja: najważniejsza różnica

Kowariancja i korelacja są ze sobą ściśle powiązane, ale odpowiadają na nieco inne pytania.

Kowariancja mówi o kierunku wspólnej zmienności i zachowuje oryginalną skalę. Korelacja standaryzuje tę zależność, dzieląc kowariancję przez odchylenia standardowe, o ile te odchylenia są niezerowe:

r=sxysxsyr = \frac{s_{xy}}{s_x s_y}

Dlatego korelacja nie ma jednostki i łatwiej ją porównywać między różnymi zbiorami danych. Jej wartość mieści się między 1-1 a 11, podczas gdy kowariancja nie ma ustalonego zakresu.

W praktyce:

  • Używaj kowariancji, gdy interesuje Cię wspólna zmienność w oryginalnych jednostkach albo gdy pojawia się ona jako część większego obliczenia, na przykład w macierzy kowariancji.
  • Używaj korelacji, gdy chcesz otrzymać miarę bez jednostki, którą łatwiej porównywać między zbiorami danych.

Częste błędy związane z kowariancją

Traktowanie dużej kowariancji jako automatycznie silnej zależności

Kowariancja równa 100100 nie jest automatycznie „silniejsza” niż kowariancja równa 55. Zmienne mogą po prostu być mierzone na większych skalach.

Mylenie wzorów dla próby i populacji

Jeśli Twoje dane pochodzą z próby, standardowo dzieli się przez n1n-1. Jeśli dane obejmują całą interesującą Cię populację, dzieli się przez NN.

Myślenie, że zerowa kowariancja oznacza całkowity brak zależności

Kowariancja bliska 00 oznacza niewielką liniową współzmienność wokół średnich. Nie wyklucza jednak zależności nieliniowej.

Jeśli dwie zmienne są niezależne i kowariancja istnieje, to kowariancja wynosi 00. Odwrotność nie zawsze jest prawdziwa.

Odczytywanie kowariancji jako związku przyczynowego

Kowariancja opisuje jedynie to, jak zmienne zmieniają się razem. Nie wyjaśnia, dlaczego zmieniają się razem.

Kiedy używa się kowariancji

Kowariancja pojawia się w statystyce, finansach, uczeniu maszynowym i analizie danych wszędzie tam, gdzie trzeba badać sparowane zmienne łącznie.

Jest szczególnie częsta w macierzach kowariancji, gdzie każdy element podsumowuje wspólną zmienność dwóch zmiennych. Ma to znaczenie w takich obszarach jak ryzyko portfela, analiza głównych składowych i modelowanie wielowymiarowe.

Spróbuj podobnego zadania

Weź dowolne trzy lub cztery sparowane wartości, oblicz obie średnie, a następnie pomnóż sparowane odchylenia przed ich uśrednieniem. Ta jedna procedura sprawia, że znak kowariancji staje się dużo bardziej konkretny.

Jeśli chcesz zrobić kolejny krok, porównaj te same dane ze współczynnikiem korelacji i zobacz, jak standaryzacja skali zmienia interpretację.

Potrzebujesz pomocy z zadaniem?

Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.

Otwórz GPAI Solver →