Miary rozproszenia mówią, jak bardzo rozproszony jest zbiór danych. Trzy podstawowe miary to rozstęp, wariancja i odchylenie standardowe. Rozstęp wykorzystuje tylko najmniejszą i największą wartość, wariancja mierzy średnią kwadratową odległość od średniej, a odchylenie standardowe jest pierwiastkiem z wariancji, więc wyraża rozproszenie w tych samych jednostkach co dane.
Jeśli chcesz zapamiętać najważniejsze: użyj rozstępu do szybkiego oglądu, wariancji do formalnych obliczeń statystycznych, a odchylenia standardowego wtedy, gdy chcesz mieć miarę rozproszenia łatwiejszą do interpretacji.
Rozstęp, wariancja i odchylenie standardowe w skrócie
Rozstęp to różnica między wartością maksymalną a minimalną:
Oblicza się go szybko, ale uwzględnia tylko dwie wartości. Jedna skrajna obserwacja może go mocno zmienić.
Wariancja mierzy, jak daleko wartości zwykle znajdują się od średniej po podniesieniu tych odległości do kwadratu.
Dla całej populacji,
Dla próby używanej do oszacowania większej populacji,
Używaj tylko wtedy, gdy twoje dane obejmują całą populację, która cię interesuje. Używaj , gdy dane są próbą z większej grupy.
Odchylenie standardowe to pierwiastek kwadratowy z wariancji:
lub, dla próby,
Ponieważ jest wyrażone w oryginalnych jednostkach, odchylenie standardowe jest zwykle łatwiejsze do interpretacji niż wariancja.
Przykład: ten sam rozstęp, inne rozproszenie
Porównaj te dwa zbiory danych:
- Zbiór A:
- Zbiór B:
Oba mają to samo minimum, to samo maksimum i tę samą średnią.
Dla każdego zbioru,
oraz
Sam rozstęp mówi więc, że oba zbiory są równie szerokie. Ale wartości są inaczej rozmieszczone wokół średniej.
Zbiór A
Odchylenia od średniej wynoszą
Po podniesieniu do kwadratu otrzymujemy
Suma kwadratów odchyleń wynosi . Jeśli potraktujemy dane jako populację,
oraz
Zbiór B
Odchylenia od średniej wynoszą
Po podniesieniu do kwadratu otrzymujemy
Suma kwadratów odchyleń wynosi , więc
oraz
Oba zbiory mają ten sam rozstęp, ale Zbiór B ma większą wariancję i większe odchylenie standardowe. To jest kluczowa idea: rozstęp uwzględnia tylko wartości skrajne, podczas gdy wariancja i odchylenie standardowe wykorzystują cały zbiór danych.
Typowe błędy przy miarach rozproszenia
Częstym błędem jest założenie, że ten sam rozstęp oznacza takie samo rozproszenie. Powyższy przykład pokazuje, dlaczego to nieprawda.
Innym błędem jest traktowanie wariancji tak, jakby była wyrażona w oryginalnych jednostkach. Tak nie jest. Jeśli dane są w metrach, wariancja jest wyrażona w metrach kwadratowych.
Trzeci błąd to mylenie wzorów dla populacji i dla próby. Poprawny mianownik zależy od sytuacji: użyj dla całej populacji i dla próby.
Warto też pamiętać, że wariancja i odchylenie standardowe są wrażliwe na wartości odstające, ponieważ duże odchylenia są przed uśrednieniem podnoszone do kwadratu.
Kiedy każda miara jest przydatna
Użyj rozstępu, gdy chcesz szybko zobaczyć, jak szeroko rozciągają się dane.
Użyj wariancji, gdy potrzebujesz miary rozproszenia wewnątrz innych metod statystycznych. Wiele wzorów w rachunku prawdopodobieństwa i statystyce opiera się na wariancji, nawet jeśli w końcowych raportach podaje się zamiast niej odchylenie standardowe.
Użyj odchylenia standardowego, gdy chcesz praktycznego opisu rozproszenia w tych samych jednostkach co dane. W wielu szkolnych i rzeczywistych podsumowaniach jest to najbardziej czytelny wybór.
Spróbuj podobnego zadania
Ułóż dwa krótkie zbiory danych o tej samej średniej i tym samym rozstępie, a następnie porównaj ich wariancję i odchylenie standardowe. Jeśli chcesz pójść krok dalej, spróbuj własnej wersji w solverze po wcześniejszym rozwiązaniu jej ręcznie.
Potrzebujesz pomocy z zadaniem?
Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.
Otwórz GPAI Solver →