Typy danych w statystyce mówią, co reprezentuje zmienna. Jeśli wartości są etykietami, takimi jak „czerwony” lub „biologia”, dane są jakościowe. Jeśli wartości są wielkościami liczbowymi, dane są ilościowe. Następnie, dla danych ilościowych, zwykle zadaje się jeszcze jedno pytanie: czy jest to dyskretny wynik zliczania, czy ciągły pomiar?

To ma znaczenie, ponieważ typ danych wpływa na to, jakie wykresy, podsumowania i modele mają sens. Średnia może być pomocna dla wzrostu, ale nie dla koloru oczu.

Dane jakościowe a ilościowe

Dane jakościowe oznaczają kategorie

Dane jakościowe opisują cechy, grupy lub etykiety, a nie wielkości liczbowe. Przykłady to kolor samochodu, grupa krwi i kraj.

Ten rodzaj danych jest też często nazywany danymi kategorycznymi.

Dane ilościowe oznaczają wielkości liczbowe

Dane ilościowe zapisują wielkość liczbową. Liczba nie jest tylko etykietą; oznacza ile, jak wiele albo jak daleko.

Przykłady obejmują wiek, wzrost, wynik testu i liczbę zwierząt domowych.

Dane dyskretne a ciągłe

Dane dyskretne pochodzą ze zliczania

Dane dyskretne to dane ilościowe, które zwykle pochodzą ze zliczania. Wartości przeskakują od jednej dopuszczalnej wartości do drugiej, zamiast wypełniać cały przedział.

Liczba uczniów w klasie jest dyskretna, ponieważ liczy się całe osoby. W zwykłym modelu zliczania wartości takie jak 24.524.5 ucznia nie mają sensu.

Dane ciągłe pochodzą z pomiaru

Dane ciągłe to dane ilościowe, które zwykle pochodzą z pomiaru. Co do zasady wartość można zapisywać z coraz większą dokładnością, zależnie od narzędzia pomiarowego i kontekstu.

Wzrost, czas i temperatura to standardowe przykłady. Wzrost danej osoby można zapisać jako 170170 cm, 170.2170.2 cm lub 170.24170.24 cm, w zależności od użytej dokładności.

Przykład: klasyfikacja danych uczniów

Załóżmy, że szkoła zapisuje dla każdego ucznia te cztery zmienne:

  • klasa wychowawcza
  • liczba rodzeństwa
  • czas dojazdu do szkoły
  • ulubiony przedmiot

Oto jak je sklasyfikować.

Klasa wychowawcza jest jakościowa, ponieważ jest etykietą grupy.

Liczba rodzeństwa jest ilościowa i dyskretna, ponieważ jest wynikiem zliczania: 0,1,2,3,0, 1, 2, 3, i tak dalej.

Czas dojazdu do szkoły jest ilościowy i ciągły, ponieważ jest mierzony. Można go zaokrąglić do najbliższej minuty, ale sama zmienna może przyjmować wartości bardziej szczegółowe niż to.

Ulubiony przedmiot jest jakościowy, ponieważ nazywa kategorię, a nie wielkość.

Ten przykład pokazuje główną ścieżkę decyzji. Najpierw zapytaj: „etykieta czy wielkość?”. Jeśli to wielkość, zapytaj: „zliczanie czy pomiar?”.

Jak rozpoznać typ danych

Skorzystaj z tej praktycznej zasady:

  1. Jeśli obliczanie średniej z wartości nie miałoby sensu, dane są prawdopodobnie jakościowe.
  2. Jeśli obliczanie średniej miałoby sens, dane są prawdopodobnie ilościowe.
  3. Jeśli wartości ilościowe pochodzą ze zliczania oddzielnych obiektów, zwykle są dyskretne.
  4. Jeśli pochodzą z pomiaru na skali, zwykle są ciągłe.

To praktyczny skrót, a nie formalny dowód. Kontekst zmiennej nadal ma znaczenie.

Typowe błędy przy typach danych w statystyce

Traktowanie kodów liczbowych jak rzeczywistych wielkości

Jeśli odpowiedzi w ankiecie są zakodowane jako 11, 22 i 33, te liczby nadal mogą oznaczać kategorie, a nie rzeczywiste wielkości. Sama obecność liczby w danych nie oznacza automatycznie, że zmienna jest ilościowa.

Zakładanie, że każda wartość całkowita jest dyskretna

Zapisany pomiar może wyglądać jak liczba całkowita tylko dlatego, że został zaokrąglony. Na przykład masy zapisane jako 6868, 7272 i 7575 kilogramów nadal są danymi ciągłymi, jeśli masa była mierzona, a nie liczona.

Mylenie zmiennej ze sposobem jej zapisu

Czas dojazdu zaokrąglony do najbliższej minuty jest często zapisywany jako liczba całkowita, ale sama zmienna nadal jest ciągła. Format zapisu nie zawsze zmienia typ podstawowy.

Gdzie te typy danych są używane w statystyce

Ta klasyfikacja ma znaczenie zawsze wtedy, gdy wybierasz wykres, podsumowanie lub metodę statystyczną.

Dla danych jakościowych często używa się wykresów słupkowych i tabel częstości. Dla danych ilościowych przydatne mogą być histogramy, wykresy pudełkowe, średnie, mediany i odchylenia standardowe.

Podział na dane dyskretne i ciągłe ma też znaczenie przy wyborze modelu prawdopodobieństwa. Niektóre modele są tworzone dla zliczeń, a inne dla pomiarów na kontinuum.

Spróbuj samodzielnie

Weź pięć zmiennych z codziennego życia, takich jak rozmiar buta, kod pocztowy, temperatura, liczba e-maili lub kolor włosów, i sklasyfikuj każdą z nich. Jeśli jakiś przypadek wydaje się niejednoznaczny, podaj warunek, który o tym decyduje, na przykład czy wartość jest etykietą, wynikiem zliczania czy pomiarem.

Jeśli chcesz pójść o krok dalej, przeanalizuj kolejny przypadek, pytając, jaki wykres lub jakie podsumowanie ma sens dla każdej zmiennej, a jakie nie.

Potrzebujesz pomocy z zadaniem?

Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.

Otwórz GPAI Solver →