Typy danych w statystyce mówią, co reprezentuje zmienna. Jeśli wartości są etykietami, takimi jak „czerwony” lub „biologia”, dane są jakościowe. Jeśli wartości są wielkościami liczbowymi, dane są ilościowe. Następnie, dla danych ilościowych, zwykle zadaje się jeszcze jedno pytanie: czy jest to dyskretny wynik zliczania, czy ciągły pomiar?
To ma znaczenie, ponieważ typ danych wpływa na to, jakie wykresy, podsumowania i modele mają sens. Średnia może być pomocna dla wzrostu, ale nie dla koloru oczu.
Dane jakościowe a ilościowe
Dane jakościowe oznaczają kategorie
Dane jakościowe opisują cechy, grupy lub etykiety, a nie wielkości liczbowe. Przykłady to kolor samochodu, grupa krwi i kraj.
Ten rodzaj danych jest też często nazywany danymi kategorycznymi.
Dane ilościowe oznaczają wielkości liczbowe
Dane ilościowe zapisują wielkość liczbową. Liczba nie jest tylko etykietą; oznacza ile, jak wiele albo jak daleko.
Przykłady obejmują wiek, wzrost, wynik testu i liczbę zwierząt domowych.
Dane dyskretne a ciągłe
Dane dyskretne pochodzą ze zliczania
Dane dyskretne to dane ilościowe, które zwykle pochodzą ze zliczania. Wartości przeskakują od jednej dopuszczalnej wartości do drugiej, zamiast wypełniać cały przedział.
Liczba uczniów w klasie jest dyskretna, ponieważ liczy się całe osoby. W zwykłym modelu zliczania wartości takie jak ucznia nie mają sensu.
Dane ciągłe pochodzą z pomiaru
Dane ciągłe to dane ilościowe, które zwykle pochodzą z pomiaru. Co do zasady wartość można zapisywać z coraz większą dokładnością, zależnie od narzędzia pomiarowego i kontekstu.
Wzrost, czas i temperatura to standardowe przykłady. Wzrost danej osoby można zapisać jako cm, cm lub cm, w zależności od użytej dokładności.
Przykład: klasyfikacja danych uczniów
Załóżmy, że szkoła zapisuje dla każdego ucznia te cztery zmienne:
- klasa wychowawcza
- liczba rodzeństwa
- czas dojazdu do szkoły
- ulubiony przedmiot
Oto jak je sklasyfikować.
Klasa wychowawcza jest jakościowa, ponieważ jest etykietą grupy.
Liczba rodzeństwa jest ilościowa i dyskretna, ponieważ jest wynikiem zliczania: i tak dalej.
Czas dojazdu do szkoły jest ilościowy i ciągły, ponieważ jest mierzony. Można go zaokrąglić do najbliższej minuty, ale sama zmienna może przyjmować wartości bardziej szczegółowe niż to.
Ulubiony przedmiot jest jakościowy, ponieważ nazywa kategorię, a nie wielkość.
Ten przykład pokazuje główną ścieżkę decyzji. Najpierw zapytaj: „etykieta czy wielkość?”. Jeśli to wielkość, zapytaj: „zliczanie czy pomiar?”.
Jak rozpoznać typ danych
Skorzystaj z tej praktycznej zasady:
- Jeśli obliczanie średniej z wartości nie miałoby sensu, dane są prawdopodobnie jakościowe.
- Jeśli obliczanie średniej miałoby sens, dane są prawdopodobnie ilościowe.
- Jeśli wartości ilościowe pochodzą ze zliczania oddzielnych obiektów, zwykle są dyskretne.
- Jeśli pochodzą z pomiaru na skali, zwykle są ciągłe.
To praktyczny skrót, a nie formalny dowód. Kontekst zmiennej nadal ma znaczenie.
Typowe błędy przy typach danych w statystyce
Traktowanie kodów liczbowych jak rzeczywistych wielkości
Jeśli odpowiedzi w ankiecie są zakodowane jako , i , te liczby nadal mogą oznaczać kategorie, a nie rzeczywiste wielkości. Sama obecność liczby w danych nie oznacza automatycznie, że zmienna jest ilościowa.
Zakładanie, że każda wartość całkowita jest dyskretna
Zapisany pomiar może wyglądać jak liczba całkowita tylko dlatego, że został zaokrąglony. Na przykład masy zapisane jako , i kilogramów nadal są danymi ciągłymi, jeśli masa była mierzona, a nie liczona.
Mylenie zmiennej ze sposobem jej zapisu
Czas dojazdu zaokrąglony do najbliższej minuty jest często zapisywany jako liczba całkowita, ale sama zmienna nadal jest ciągła. Format zapisu nie zawsze zmienia typ podstawowy.
Gdzie te typy danych są używane w statystyce
Ta klasyfikacja ma znaczenie zawsze wtedy, gdy wybierasz wykres, podsumowanie lub metodę statystyczną.
Dla danych jakościowych często używa się wykresów słupkowych i tabel częstości. Dla danych ilościowych przydatne mogą być histogramy, wykresy pudełkowe, średnie, mediany i odchylenia standardowe.
Podział na dane dyskretne i ciągłe ma też znaczenie przy wyborze modelu prawdopodobieństwa. Niektóre modele są tworzone dla zliczeń, a inne dla pomiarów na kontinuum.
Spróbuj samodzielnie
Weź pięć zmiennych z codziennego życia, takich jak rozmiar buta, kod pocztowy, temperatura, liczba e-maili lub kolor włosów, i sklasyfikuj każdą z nich. Jeśli jakiś przypadek wydaje się niejednoznaczny, podaj warunek, który o tym decyduje, na przykład czy wartość jest etykietą, wynikiem zliczania czy pomiarem.
Jeśli chcesz pójść o krok dalej, przeanalizuj kolejny przypadek, pytając, jaki wykres lub jakie podsumowanie ma sens dla każdej zmiennej, a jakie nie.
Potrzebujesz pomocy z zadaniem?
Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.
Otwórz GPAI Solver →