Kowariancja mierzy, czy dwie zmienne mają tendencję do jednoczesnego przyjmowania wartości powyżej lub poniżej swoich średnich. Dodatnia kowariancja oznacza, że zmienne zwykle zmieniają się w tym samym kierunku względem swoich średnich. Ujemna kowariancja oznacza, że jedna z nich ma tendencję do bycia powyżej średniej wtedy, gdy druga jest poniżej średniej.
Dla większości uczniów i studentów najważniejsza jest ta idea: znak jest zwykle bardziej użyteczny niż sama surowa liczba. Wielkość kowariancji zależy od jednostek obu zmiennych, więc sama w sobie nie jest czystą miarą siły zależności.
Wzór na kowariancję dla próby i populacji
Dla próby danych sparowanych często używa się wzoru
Tutaj i to średnie z próby. Każdy iloczyn jest dodatni, gdy para leży po tej samej stronie obu średnich, a ujemny, gdy elementy pary leżą po przeciwnych stronach.
Jeśli pracujesz z całą populacją, a nie z próbą, w mianowniku zwykle występuje zamiast :
Używaj wersji dla próby przy danych z próby, a wersji dla populacji tylko wtedy, gdy dane reprezentują całą populację, którą chcesz opisać.
Jak odczytywać znak kowariancji
Kowariancja jest zbudowana na podstawie sparowanych odchyleń od średniej.
Jeśli oba odchylenia są dodatnie, ich iloczyn jest dodatni. Jeśli oba są ujemne, ich iloczyn też jest dodatni. Takie pary zwiększają kowariancję, ponieważ zmienne poruszają się razem względem swoich środków.
Jeśli jedno odchylenie jest dodatnie, a drugie ujemne, iloczyn jest ujemny. Takie pary obniżają kowariancję, ponieważ zmienne zmieniają się w przeciwnych kierunkach.
Można więc powiedzieć, że kowariancja to średnia „wspólnego ruchu wokół średniej”.
Przykład obliczeń: liczba godzin nauki i wyniki quizu
Załóżmy, że mała próba zawiera liczbę godzin nauki i wyniki quizu:
Najpierw wyznacz średnie:
Teraz oblicz odchylenia i ich iloczyny:
- Dla :
- Dla :
- Dla :
Dodaj iloczyny:
Ponieważ jest to kowariancja z próby, dzielimy przez :
Kowariancja jest dodatnia, więc w tej próbie zmienne zmieniają się razem. Więcej czasu poświęconego na naukę wiąże się tutaj z wyższymi wynikami quizu.
Ważne zastrzeżenie jest takie, że nie jest uniwersalną skalą siły zależności. Jej wartość zależy tutaj od jednostek: godzin razy punktów. Gdyby zmienić skalę pomiaru, kowariancja też by się zmieniła, nawet jeśli ogólny wzorzec pozostałby podobny.
Kowariancja a korelacja: najważniejsza różnica
Kowariancja i korelacja są ze sobą ściśle powiązane, ale odpowiadają na nieco inne pytania.
Kowariancja mówi o kierunku wspólnej zmienności i zachowuje oryginalną skalę. Korelacja standaryzuje tę zależność, dzieląc kowariancję przez odchylenia standardowe, o ile te odchylenia są niezerowe:
Dlatego korelacja nie ma jednostki i łatwiej ją porównywać między różnymi zbiorami danych. Jej wartość mieści się między a , podczas gdy kowariancja nie ma ustalonego zakresu.
W praktyce:
- Używaj kowariancji, gdy interesuje Cię wspólna zmienność w oryginalnych jednostkach albo gdy pojawia się ona jako część większego obliczenia, na przykład w macierzy kowariancji.
- Używaj korelacji, gdy chcesz otrzymać miarę bez jednostki, którą łatwiej porównywać między zbiorami danych.
Częste błędy związane z kowariancją
Traktowanie dużej kowariancji jako automatycznie silnej zależności
Kowariancja równa nie jest automatycznie „silniejsza” niż kowariancja równa . Zmienne mogą po prostu być mierzone na większych skalach.
Mylenie wzorów dla próby i populacji
Jeśli Twoje dane pochodzą z próby, standardowo dzieli się przez . Jeśli dane obejmują całą interesującą Cię populację, dzieli się przez .
Myślenie, że zerowa kowariancja oznacza całkowity brak zależności
Kowariancja bliska oznacza niewielką liniową współzmienność wokół średnich. Nie wyklucza jednak zależności nieliniowej.
Jeśli dwie zmienne są niezależne i kowariancja istnieje, to kowariancja wynosi . Odwrotność nie zawsze jest prawdziwa.
Odczytywanie kowariancji jako związku przyczynowego
Kowariancja opisuje jedynie to, jak zmienne zmieniają się razem. Nie wyjaśnia, dlaczego zmieniają się razem.
Kiedy używa się kowariancji
Kowariancja pojawia się w statystyce, finansach, uczeniu maszynowym i analizie danych wszędzie tam, gdzie trzeba badać sparowane zmienne łącznie.
Jest szczególnie częsta w macierzach kowariancji, gdzie każdy element podsumowuje wspólną zmienność dwóch zmiennych. Ma to znaczenie w takich obszarach jak ryzyko portfela, analiza głównych składowych i modelowanie wielowymiarowe.
Spróbuj podobnego zadania
Weź dowolne trzy lub cztery sparowane wartości, oblicz obie średnie, a następnie pomnóż sparowane odchylenia przed ich uśrednieniem. Ta jedna procedura sprawia, że znak kowariancji staje się dużo bardziej konkretny.
Jeśli chcesz zrobić kolejny krok, porównaj te same dane ze współczynnikiem korelacji i zobacz, jak standaryzacja skali zmienia interpretację.
Potrzebujesz pomocy z zadaniem?
Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.
Otwórz GPAI Solver →