Các loại dữ liệu trong thống kê cho biết một biến biểu diễn điều gì. Nếu các giá trị là nhãn như "đỏ" hoặc "sinh học", thì dữ liệu là định tính. Nếu các giá trị là các đại lượng bằng số, thì dữ liệu là định lượng. Sau đó, với dữ liệu định lượng, bạn thường hỏi thêm một câu nữa: đó là số đếm rời rạc hay phép đo liên tục?
Điều này quan trọng vì loại dữ liệu ảnh hưởng đến việc biểu đồ, số tóm tắt và mô hình nào là phù hợp. Giá trị trung bình có thể hữu ích với chiều cao, nhưng không có ý nghĩa với màu mắt.
Dữ liệu định tính và định lượng
Dữ liệu định tính là các nhóm phân loại
Dữ liệu định tính mô tả đặc điểm, nhóm hoặc nhãn thay vì các đại lượng bằng số. Ví dụ gồm có màu xe, nhóm máu và quốc gia.
Loại dữ liệu này cũng thường được gọi là dữ liệu phân loại.
Dữ liệu định lượng là các đại lượng bằng số
Dữ liệu định lượng ghi lại một đại lượng bằng số. Con số đó không chỉ là một nhãn; nó biểu thị bao nhiêu, có bao nhiêu hoặc xa đến mức nào.
Ví dụ gồm có tuổi, chiều cao, điểm kiểm tra và số thú cưng.
Dữ liệu rời rạc và liên tục
Dữ liệu rời rạc đến từ việc đếm
Dữ liệu rời rạc là dữ liệu định lượng thường có được từ đếm. Các giá trị nhảy từ một giá trị cho phép sang giá trị khác thay vì lấp đầy toàn bộ một khoảng.
Số học sinh trong một lớp là rời rạc vì bạn đếm từng học sinh nguyên vẹn. Theo mô hình đếm thông thường, các giá trị như học sinh là không có ý nghĩa.
Dữ liệu liên tục đến từ việc đo
Dữ liệu liên tục là dữ liệu định lượng thường có được từ đo lường. Về nguyên tắc, giá trị có thể được ghi với độ chính xác ngày càng cao hơn, tùy vào dụng cụ đo và ngữ cảnh.
Chiều cao, thời gian và nhiệt độ là những ví dụ điển hình. Chiều cao của một người có thể được viết là cm, cm hoặc cm tùy theo độ chính xác bạn dùng.
Ví dụ minh họa: phân loại dữ liệu học sinh
Giả sử một trường học ghi lại bốn biến sau cho mỗi học sinh:
- lớp chủ nhiệm
- số anh chị em ruột
- thời gian đi đến trường
- môn học yêu thích
Dưới đây là cách phân loại chúng.
Lớp chủ nhiệm là dữ liệu định tính vì đó là một nhãn nhóm.
Số anh chị em ruột là dữ liệu định lượng và rời rạc vì đó là một số đếm: v.v.
Thời gian đi đến trường là dữ liệu định lượng và liên tục vì nó được đo. Bạn có thể làm tròn đến phút gần nhất, nhưng biến gốc có thể thay đổi tinh hơn mức đó.
Môn học yêu thích là dữ liệu định tính vì nó gọi tên một nhóm, không phải một đại lượng.
Ví dụ này cho thấy lộ trình quyết định chính. Trước hết hãy hỏi "nhãn hay đại lượng?" Nếu là đại lượng, hãy hỏi "đếm hay đo?"
Cách nhận biết bạn đang có loại dữ liệu nào
Hãy dùng quy tắc kinh nghiệm sau:
- Nếu việc lấy trung bình các giá trị là vô nghĩa, thì dữ liệu đó có lẽ là định tính.
- Nếu việc lấy trung bình có ý nghĩa, thì dữ liệu đó có lẽ là định lượng.
- Nếu các giá trị định lượng đến từ việc đếm các đối tượng riêng biệt, thì chúng thường là rời rạc.
- Nếu chúng đến từ việc đo trên một thang đo, thì chúng thường là liên tục.
Đây là một mẹo thực tế, không phải một chứng minh hình thức. Ngữ cảnh của biến vẫn rất quan trọng.
Những lỗi thường gặp với loại dữ liệu trong thống kê
Xem mã số như các đại lượng thực sự
Nếu câu trả lời khảo sát được mã hóa là , và , thì những con số đó vẫn có thể chỉ đại diện cho các nhóm thay vì các đại lượng thực tế. Một con số xuất hiện trong dữ liệu không tự động khiến biến trở thành định lượng.
Cho rằng mọi giá trị số nguyên đều là rời rạc
Một phép đo được ghi dưới dạng số nguyên có thể chỉ là do đã được làm tròn. Ví dụ, các cân nặng được ghi là , và kilôgam vẫn là dữ liệu liên tục nếu cân nặng được đo chứ không phải được đếm.
Nhầm lẫn giữa biến và cách nó được lưu trữ
Thời gian di chuyển được làm tròn đến phút gần nhất thường được lưu dưới dạng số nguyên, nhưng bản thân biến đó vẫn là liên tục. Định dạng ghi lại không phải lúc nào cũng làm thay đổi loại dữ liệu gốc.
Những loại dữ liệu này được dùng ở đâu trong thống kê
Việc phân loại này quan trọng bất cứ khi nào bạn chọn biểu đồ, số tóm tắt hoặc phương pháp thống kê.
Với dữ liệu định tính, biểu đồ cột và bảng tần số là phổ biến. Với dữ liệu định lượng, biểu đồ tần suất, biểu đồ hộp, giá trị trung bình, trung vị và độ lệch chuẩn có thể hữu ích.
Sự phân biệt giữa rời rạc và liên tục cũng quan trọng khi bạn chọn mô hình xác suất. Một số mô hình được xây dựng cho số đếm, trong khi những mô hình khác được xây dựng cho các phép đo trên một miền liên tục.
Hãy thử với ví dụ của riêng bạn
Hãy lấy năm biến từ đời sống hằng ngày, chẳng hạn như cỡ giày, mã ZIP, nhiệt độ, số email hoặc màu tóc, rồi phân loại từng biến. Nếu một trường hợp có vẻ chưa rõ ràng, hãy nêu điều kiện quyết định nó, chẳng hạn như giá trị đó là nhãn, số đếm hay phép đo.
Nếu muốn đi xa hơn một bước, hãy xem xét thêm bằng cách hỏi biểu đồ hoặc số tóm tắt nào phù hợp với từng biến và loại nào thì không.
Cần trợ giúp giải bài?
Tải câu hỏi lên và nhận lời giải từng bước đã được xác minh trong vài giây.
Mở GPAI Solver →