Częstość skumulowana to suma narastająca w tabeli częstości. Pokazuje, ile obserwacji znajduje się na danej wartości lub poniżej niej albo do danej granicy klasy, dlatego jest przydatna przy wyznaczaniu mediany, kwartylów i percentyli.

Ogiva to wykres tej sumy narastającej. Gdy umiesz odczytywać razem tabelę i wykres, zadania z danymi pogrupowanymi stają się dużo łatwiejsze.

Definicja częstości skumulowanej

Jeśli częstości klas wynoszą f1,f2,,fkf_1, f_2, \dots, f_k, to częstość skumulowana do klasy kk wynosi

Fk=f1+f2++fkF_k = f_1 + f_2 + \cdots + f_k

Każdy wiersz dodaje do sumy jeszcze jedną klasę. Jeśli częstość skumulowana wynosi 2828 na końcu pewnej klasy, to 2828 obserwacji znajduje się w tej klasie lub poniżej niej.

Dla danych niepogrupowanych częstość skumulowana jest po prostu liczbą narastającą. Dla danych pogrupowanych jest to liczba narastająca według przedziałów klasowych.

Jak ogiva pomaga odczytywać percentyle

Ogiva przedstawia częstość skumulowaną względem granic klas. Dla pogrupowanych danych ciągłych zwykle zaznacza się:

  • górną granicę klasy na osi poziomej
  • częstość skumulowaną na osi pionowej

Następnie łączy się punkty gładką linią albo linią odcinkową. Krzywa rośnie, ponieważ częstość skumulowana nigdy nie maleje.

Główne zastosowanie ogivy to odczytywanie pozycji w uporządkowanym zbiorze danych. Jeśli łączna częstość wynosi NN, to:

  • mediana jest w przybliżeniu N/2N/2-tą wartością
  • pierwszy kwartyl jest w przybliżeniu N/4N/4-tą wartością
  • trzeci kwartyl jest w przybliżeniu 3N/43N/4-tą wartością
  • pp-ty percentyl jest w przybliżeniu (p/100)N(p/100)N-tą wartością

Na wykresie zaczynasz od tej pozycji na osi pionowej, przesuwasz się poziomo do ogivy, a potem schodzisz w dół do osi poziomej, aby oszacować wartość.

Przykład: mediana i 75. percentyl

Załóżmy, że wyniki testu dla 4040 uczniów są pogrupowane tak:

Wynik Częstość Częstość skumulowana
0-10 22 22
10-20 55 77
20-30 99 1616
30-40 1212 2828
40-50 88 3636
50-60 44 4040

Łączna częstość wynosi N=40N = 40.

Wyznacz medianę z tabeli

Mediana to N/2=20N/2 = 20-ta wartość.

Spójrz na częstości skumulowane:

  • do 20-30 suma wynosi 1616
  • do 30-40 suma wynosi 2828

Zatem 2020-ta wartość leży w klasie 3030-4040.

Jeśli chcesz uzyskać oszacowanie dla danych pogrupowanych, użyj interpolacji tylko wtedy, gdy rozsądnie jest przyjąć, że wartości są dość równomiernie rozłożone w tej klasie. Wtedy

medianL+N/2Fbeforefw\text{median} \approx L + \frac{N/2 - F_{\text{before}}}{f} \cdot w

Tutaj:

  • L=30L = 30 to dolna granica klasy
  • Fbefore=16F_{\text{before}} = 16 to częstość skumulowana przed tą klasą
  • f=12f = 12 to częstość klasy
  • w=10w = 10 to szerokość klasy

Zatem

median30+20161210=30+401233.3\text{median} \approx 30 + \frac{20 - 16}{12} \cdot 10 = 30 + \frac{40}{12} \approx 33.3

To oszacowanie nie jest dokładne. Zależy od założenia, że wartości wewnątrz klasy 3030-4040 są rozłożone dość płynnie.

Oszacuj 75. percentyl

7575-ty percentyl to (75/100)40=30(75/100) \cdot 40 = 30-ta wartość.

Z częstości skumulowanych:

  • do 30-40 suma wynosi 2828
  • do 40-50 suma wynosi 3636

Zatem 3030-ta wartość leży w klasie 4040-5050.

Korzystając z tej samej idei interpolacji,

P7540+3028810=42.5P_{75} \approx 40 + \frac{30 - 28}{8} \cdot 10 = 42.5

Na ogivie zaznaczyłbyś 3030 na osi częstości skumulowanej, przesunął się poziomo do krzywej, a następnie odczytał w dół około 42.542.5 na osi wyników.

Typowe błędy przy częstości skumulowanej

Mylenie częstości z częstością skumulowaną

Częstość mówi, ile obserwacji znajduje się w jednej klasie. Częstość skumulowana mówi, ile obserwacji znajduje się w tej klasie oraz we wszystkich wcześniejszych klasach razem.

Użycie złej pozycji

Dla mediany lub percentyla pozycja wynika z łącznej częstości NN. Jeśli użyjesz złej sumy, każdy kolejny krok będzie błędny.

Traktowanie oszacowań z danych pogrupowanych jako dokładnych

Ogiva lub interpolacja daje oszacowanie wewnątrz klasy, a nie dokładną oryginalną wartość danych. To oszacowanie zależy od tego, jak dane są rozłożone wewnątrz przedziału.

Zaznaczanie niewłaściwych wartości na osi poziomej

Dla danych pogrupowanych ogivy zwykle rysuje się względem granic klas, zwłaszcza górnych granic klas. Rysowanie względem środków klas zmienia znaczenie wykresu.

Kiedy używa się częstości skumulowanej

Częstości skumulowanej używa się zawsze wtedy, gdy potrzebna jest uporządkowana pozycja w zbiorze danych, a nie tylko liczebności w poszczególnych klasach. Obejmuje to podsumowania wyników egzaminów, rozkłady dochodów, dane z kontroli jakości oraz każdą sytuację, w której percentyle lub mediany są ważniejsze niż liczebności pojedynczych przedziałów.

Jest ona szczególnie przydatna wtedy, gdy surowych danych jest dużo i tabela pogrupowana jest łatwiejsza do odczytania niż długa lista obserwacji.

Spróbuj podobnego zadania z częstością skumulowaną

Weź dowolną małą tabelę pogrupowaną i dodaj kolumnę częstości skumulowanej przed narysowaniem ogivy. Następnie odczytaj medianę i jeden percentyl z wykresu i porównaj je z oszacowaniem z tabeli.

Jeśli chcesz zrobić jeszcze jedno sprawdzenie, spróbuj własnej wersji z N=50N = 50 i zapytaj, gdzie wypadłyby 2020-ta, 2525-ta i 4545-ta wartość. To prosty sposób, by dobrze utrwalić ten pomysł.

Potrzebujesz pomocy z zadaniem?

Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.

Otwórz GPAI Solver →