Các thước đo độ phân tán cho biết một tập dữ liệu phân bố rộng đến mức nào. Ba thước đo cơ bản là khoảng biến thiên, phương sai và độ lệch chuẩn. Khoảng biến thiên chỉ dùng giá trị nhỏ nhất và lớn nhất, phương sai đo khoảng cách bình phương trung bình so với giá trị trung bình, còn độ lệch chuẩn là căn bậc hai của phương sai nên đưa độ phân tán trở lại đơn vị ban đầu.
Nếu bạn muốn nắm ý chính thật nhanh, hãy dùng khoảng biến thiên để nhìn lướt, dùng phương sai cho các bài toán thống kê chính thức, và dùng độ lệch chuẩn khi cần một thước đo độ phân tán dễ diễn giải hơn.
Tổng quan nhanh về khoảng biến thiên, phương sai và độ lệch chuẩn
Khoảng biến thiên là khoảng cách từ giá trị nhỏ nhất đến giá trị lớn nhất:
Nó tính rất nhanh, nhưng chỉ dùng hai giá trị. Một giá trị cực đoan có thể làm nó thay đổi rất nhiều.
Phương sai đo mức độ các giá trị thường nằm xa giá trị trung bình bao nhiêu sau khi các khoảng cách đó được bình phương.
Với toàn bộ tổng thể,
Với một mẫu dùng để ước lượng một tổng thể lớn hơn,
Chỉ dùng khi dữ liệu của bạn là toàn bộ tổng thể mà bạn quan tâm. Dùng khi dữ liệu của bạn là một mẫu lấy từ một nhóm lớn hơn.
Độ lệch chuẩn là căn bậc hai của phương sai:
hoặc, với một mẫu,
Vì nằm trong đơn vị ban đầu, độ lệch chuẩn thường dễ đọc hơn phương sai.
Ví dụ có lời giải: cùng khoảng biến thiên, độ phân tán khác nhau
So sánh hai tập dữ liệu sau:
- Tập A:
- Tập B:
Cả hai đều có cùng giá trị nhỏ nhất, cùng giá trị lớn nhất và cùng giá trị trung bình.
Với mỗi tập,
và
Vì vậy, chỉ nhìn khoảng biến thiên thì chúng có vẻ rộng như nhau. Nhưng các giá trị lại được sắp xếp khác nhau quanh giá trị trung bình.
Tập A
Các độ lệch so với giá trị trung bình là
Bình phương chúng ta được
Tổng các độ lệch bình phương là . Nếu xem dữ liệu là một tổng thể,
và
Tập B
Các độ lệch so với giá trị trung bình là
Bình phương chúng ta được
Tổng các độ lệch bình phương là , nên
và
Cả hai tập đều có cùng khoảng biến thiên, nhưng Tập B có phương sai và độ lệch chuẩn lớn hơn. Đó là ý chính: khoảng biến thiên chỉ nhìn hai đầu mút, còn phương sai và độ lệch chuẩn dùng toàn bộ tập dữ liệu.
Những lỗi thường gặp với các thước đo độ phân tán
Một lỗi phổ biến là cho rằng cùng khoảng biến thiên thì độ phân tán cũng giống nhau. Ví dụ trên cho thấy điều đó là sai.
Một lỗi khác là xem phương sai như thể nó có cùng đơn vị với dữ liệu ban đầu. Điều đó không đúng. Nếu dữ liệu tính bằng mét thì phương sai tính bằng mét vuông.
Lỗi thứ ba là nhầm lẫn giữa công thức cho tổng thể và công thức cho mẫu. Mẫu số đúng phụ thuộc vào tình huống: dùng cho toàn bộ tổng thể và cho một mẫu.
Bạn cũng nên nhớ rằng phương sai và độ lệch chuẩn nhạy với các giá trị ngoại lai vì các độ lệch lớn được bình phương trước khi lấy trung bình.
Khi nào nên dùng từng thước đo
Dùng khoảng biến thiên khi bạn muốn có cái nhìn nhanh ban đầu về độ rộng của dữ liệu.
Dùng phương sai khi bạn cần thước đo độ phân tán trong các phương pháp thống kê khác. Nhiều công thức trong xác suất và thống kê được xây dựng quanh phương sai, ngay cả khi báo cáo cuối cùng lại trình bày độ lệch chuẩn.
Dùng độ lệch chuẩn khi bạn muốn mô tả thực tế về độ phân tán bằng chính đơn vị của dữ liệu. Trong nhiều bản tóm tắt ở lớp học và ngoài thực tế, đây là lựa chọn dễ đọc nhất.
Hãy thử một bài tương tự
Hãy tạo hai tập dữ liệu ngắn có cùng giá trị trung bình và cùng khoảng biến thiên, rồi so sánh phương sai và độ lệch chuẩn của chúng. Nếu muốn làm thêm một bước nữa, hãy thử phiên bản của riêng bạn trong một công cụ giải sau khi tự tính bằng tay.
Cần trợ giúp giải bài?
Tải câu hỏi lên và nhận lời giải từng bước đã được xác minh trong vài giây.
Mở GPAI Solver →