Οι τύποι δεδομένων στη στατιστική δείχνουν τι αντιπροσωπεύει μια μεταβλητή. Αν οι τιμές είναι ετικέτες όπως "κόκκινο" ή "βιολογία", τα δεδομένα είναι ποιοτικά. Αν οι τιμές είναι αριθμητικά μεγέθη, τα δεδομένα είναι ποσοτικά. Έπειτα, για τα ποσοτικά δεδομένα, συνήθως κάνεις άλλη μία ερώτηση: είναι διακριτή καταμέτρηση ή συνεχής μέτρηση;

Αυτό έχει σημασία, επειδή ο τύπος των δεδομένων επηρεάζει ποια γραφήματα, περιγραφικά μέτρα και μοντέλα έχουν νόημα. Ο μέσος όρος μπορεί να βοηθήσει στα ύψη, αλλά όχι στο χρώμα των ματιών.

Ποιοτικά vs ποσοτικά δεδομένα

Ποιοτικά δεδομένα σημαίνει κατηγορίες

Τα ποιοτικά δεδομένα περιγράφουν ιδιότητες, ομάδες ή ετικέτες και όχι αριθμητικά μεγέθη. Παραδείγματα είναι το χρώμα αυτοκινήτου, η ομάδα αίματος και η χώρα.

Αυτό το είδος δεδομένων ονομάζεται επίσης συχνά κατηγορικά δεδομένα.

Ποσοτικά δεδομένα σημαίνει αριθμητικά μεγέθη

Τα ποσοτικά δεδομένα καταγράφουν ένα αριθμητικό μέγεθος. Ο αριθμός δεν είναι απλώς μια ετικέτα· δείχνει πόσο, πόσα ή πόσο μακριά.

Παραδείγματα είναι η ηλικία, το ύψος, ο βαθμός σε τεστ και ο αριθμός κατοικιδίων.

Διακριτά vs συνεχή δεδομένα

Τα διακριτά δεδομένα προκύπτουν από καταμέτρηση

Τα διακριτά δεδομένα είναι ποσοτικά δεδομένα που συνήθως προκύπτουν από καταμέτρηση. Οι τιμές πηδούν από μία επιτρεπτή τιμή σε άλλη, αντί να γεμίζουν ολόκληρο ένα διάστημα.

Ο αριθμός των μαθητών σε μια τάξη είναι διακριτός, επειδή μετράς ολόκληρους μαθητές. Σε ένα συνηθισμένο μοντέλο καταμέτρησης, τιμές όπως 24.524.5 μαθητές δεν έχουν νόημα.

Τα συνεχή δεδομένα προκύπτουν από μέτρηση

Τα συνεχή δεδομένα είναι ποσοτικά δεδομένα που συνήθως προκύπτουν από μέτρηση. Θεωρητικά, η τιμή μπορεί να καταγραφεί με όλο και μεγαλύτερη ακρίβεια, ανάλογα με το όργανο μέτρησης και το πλαίσιο.

Το ύψος, ο χρόνος και η θερμοκρασία είναι κλασικά παραδείγματα. Το ύψος ενός ατόμου μπορεί να γραφτεί ως 170170 cm, 170.2170.2 cm ή 170.24170.24 cm, ανάλογα με την ακρίβεια που χρησιμοποιείς.

Λυμένο παράδειγμα: ταξινόμηση δεδομένων μαθητών

Ας υποθέσουμε ότι ένα σχολείο καταγράφει τις εξής τέσσερις μεταβλητές για κάθε μαθητή:

  • τμήμα
  • αριθμός αδελφών
  • χρόνος διαδρομής προς το σχολείο
  • αγαπημένο μάθημα

Δες πώς ταξινομούνται.

Το τμήμα είναι ποιοτικό, επειδή είναι ετικέτα ομάδας.

Ο αριθμός αδελφών είναι ποσοτικός και διακριτός, επειδή είναι καταμέτρηση: 0,1,2,3,0, 1, 2, 3, και ούτω καθεξής.

Ο χρόνος διαδρομής προς το σχολείο είναι ποσοτικός και συνεχής, επειδή μετριέται. Μπορεί να τον στρογγυλοποιήσεις στο πλησιέστερο λεπτό, αλλά η υποκείμενη μεταβλητή μπορεί να μεταβάλλεται πιο λεπτομερώς από αυτό.

Το αγαπημένο μάθημα είναι ποιοτικό, επειδή δηλώνει μια κατηγορία και όχι ένα μέγεθος.

Αυτό το παράδειγμα δείχνει τη βασική πορεία απόφασης. Πρώτα ρώτησε «ετικέτα ή μέγεθος;». Αν είναι μέγεθος, ρώτησε «καταμέτρηση ή μέτρηση;».

Πώς να καταλάβεις ποιον τύπο δεδομένων έχεις

Χρησιμοποίησε αυτόν τον πρακτικό κανόνα:

  1. Αν ο μέσος όρος των τιμών δεν θα είχε νόημα, τα δεδομένα είναι πιθανότατα ποιοτικά.
  2. Αν ο μέσος όρος θα είχε νόημα, τα δεδομένα είναι πιθανότατα ποσοτικά.
  3. Αν οι ποσοτικές τιμές προκύπτουν από καταμέτρηση ξεχωριστών αντικειμένων, συνήθως είναι διακριτές.
  4. Αν προκύπτουν από μέτρηση σε μια κλίμακα, συνήθως είναι συνεχείς.

Αυτό είναι ένα πρακτικό συντόμευμα, όχι μια τυπική απόδειξη. Το πλαίσιο της μεταβλητής εξακολουθεί να έχει σημασία.

Συχνά λάθη με τους τύπους δεδομένων στη στατιστική

Αντιμετώπιση αριθμητικών κωδικών ως πραγματικών ποσοτήτων

Αν οι απαντήσεις μιας έρευνας κωδικοποιούνται ως 11, 22 και 33, αυτοί οι αριθμοί μπορεί πάλι να αντιστοιχούν σε κατηγορίες και όχι σε πραγματικά μεγέθη. Το ότι υπάρχει ένας αριθμός στα δεδομένα δεν κάνει αυτόματα τη μεταβλητή ποσοτική.

Η υπόθεση ότι κάθε ακέραιη τιμή είναι διακριτή

Μια καταγεγραμμένη μέτρηση μπορεί να εμφανίζεται ως ακέραιος μόνο επειδή έχει στρογγυλοποιηθεί. Για παράδειγμα, βάρη που δίνονται ως 6868, 7272 και 7575 κιλά παραμένουν συνεχή δεδομένα, αν το βάρος μετρήθηκε και δεν μετρήθηκε με καταμέτρηση.

Σύγχυση της μεταβλητής με τον τρόπο αποθήκευσής της

Ο χρόνος διαδρομής που έχει στρογγυλοποιηθεί στο πλησιέστερο λεπτό συχνά αποθηκεύεται ως ακέραιος αριθμός, αλλά η ίδια η μεταβλητή παραμένει συνεχής. Η μορφή καταγραφής δεν αλλάζει πάντα τον υποκείμενο τύπο.

Πού χρησιμοποιούνται αυτοί οι τύποι δεδομένων στη στατιστική

Η ταξινόμηση έχει σημασία κάθε φορά που επιλέγεις γράφημα, περιγραφικό μέτρο ή στατιστική μέθοδο.

Για ποιοτικά δεδομένα, συνηθίζονται τα ραβδογράμματα και οι πίνακες συχνοτήτων. Για ποσοτικά δεδομένα, μπορεί να είναι χρήσιμα τα ιστογράμματα, τα θηκογράμματα, οι μέσοι όροι, οι διάμεσοι και οι τυπικές αποκλίσεις.

Η διάκριση διακριτών και συνεχών έχει επίσης σημασία όταν επιλέγεις ένα μοντέλο πιθανοτήτων. Ορισμένα μοντέλα έχουν σχεδιαστεί για μετρήσεις πλήθους, ενώ άλλα για μετρήσεις πάνω σε ένα συνεχές.

Δοκίμασε τη δική σου εκδοχή

Πάρε πέντε μεταβλητές από την καθημερινή ζωή, όπως το νούμερο παπουτσιού, ο ταχυδρομικός κώδικας, η θερμοκρασία, ο αριθμός email ή το χρώμα μαλλιών, και ταξινόμησε καθεμία. Αν μια περίπτωση φαίνεται αμφίσημη, δήλωσε τη συνθήκη που την καθορίζει, όπως αν η τιμή είναι ετικέτα, καταμέτρηση ή μέτρηση.

Αν θέλεις να πας ένα βήμα παραπέρα, εξέτασε άλλη μία περίπτωση ρωτώντας ποιο γράφημα ή ποιο περιγραφικό μέτρο έχει νόημα για κάθε μεταβλητή και ποιο όχι.

Χρειάζεσαι βοήθεια με μια άσκηση;

Ανέβασε την ερώτησή σου και πάρε επαληθευμένη λύση βήμα-βήμα σε δευτερόλεπτα.

Άνοιξε το GPAI Solver →