Biểu đồ hộp và râu cho thấy tâm, độ phân tán và khả năng lệch của một tập dữ liệu chỉ trong một cái nhìn. Nó được xây dựng từ tóm tắt năm số: giá trị nhỏ nhất, tứ phân vị thứ nhất Q1Q_1, trung vị, tứ phân vị thứ ba Q3Q_3 và giá trị lớn nhất. Nếu lớp học hoặc phần mềm của bạn dùng quy tắc 1.5×IQR1.5 \times IQR, thì các "râu" có thể dừng ở những giá trị không phải ngoại lệ xa nhất thay vì giá trị nhỏ nhất và lớn nhất tuyệt đối.

Hộp kéo dài từ Q1Q_1 đến Q3Q_3, nên nó chứa 50%50\% dữ liệu ở giữa. Đường nằm bên trong hộp là trung vị. Các râu cho biết dữ liệu kéo dài xa đến đâu ngoài nửa giữa đó.

Biểu đồ hộp và râu cho thấy điều gì

Biểu đồ hộp giúp bạn trả lời nhanh ba câu hỏi:

  • Trung tâm nằm ở đâu? Hãy nhìn vào trung vị.
  • Nửa giữa phân tán đến mức nào? Hãy nhìn vào độ rộng của hộp.
  • Hai đuôi có cân đối không? Hãy so sánh hai râu.

Độ rộng của hộp là khoảng tứ phân vị, hay IQR=Q3Q1IQR = Q_3 - Q_1. IQRIQR lớn hơn có nghĩa là nửa giữa của dữ liệu phân tán hơn. Nếu một râu dài hơn nhiều so với râu còn lại, dữ liệu có thể bị lệch theo hướng đó.

Nhiều biểu đồ hộp cũng dùng quy tắc 1.5×IQR1.5 \times IQR để đánh dấu các ngoại lệ có thể có. Trong phiên bản đó, các râu dừng ở những giá trị không phải ngoại lệ xa nhất. Vì vậy, hai biểu đồ hộp đều đúng cho cùng một bộ dữ liệu vẫn có thể trông hơi khác nhau nếu chúng dùng quy tắc vẽ râu khác nhau.

Ví dụ từng bước từ dữ liệu đến biểu đồ hộp

Dùng tập dữ liệu đã sắp xếp

3, 5, 6, 7, 8, 9, 12, 153,\ 5,\ 6,\ 7,\ 8,\ 9,\ 12,\ 15

88 giá trị, nên trung vị là trung bình của hai giá trị ở giữa:

median=7+82=7.5\text{median} = \frac{7 + 8}{2} = 7.5

Vì có số lượng điểm dữ liệu chẵn, hãy chia danh sách thành hai nửa bằng nhau. Nửa dưới là 3,5,6,73, 5, 6, 7, nên

Q1=5+62=5.5Q_1 = \frac{5 + 6}{2} = 5.5

Nửa trên là 8,9,12,158, 9, 12, 15, nên

Q3=9+122=10.5Q_3 = \frac{9 + 12}{2} = 10.5

Ta được tóm tắt năm số:

min=3,Q1=5.5,median=7.5,Q3=10.5,max=15\text{min} = 3,\quad Q_1 = 5.5,\quad \text{median} = 7.5,\quad Q_3 = 10.5,\quad \text{max} = 15

Bây giờ tính khoảng tứ phân vị:

IQR=Q3Q1=10.55.5=5IQR = Q_3 - Q_1 = 10.5 - 5.5 = 5

Nếu bạn dùng quy tắc ngoại lệ phổ biến 1.5×IQR1.5 \times IQR, thì các hàng rào là

Q11.5(IQR)=5.57.5=2Q_1 - 1.5(IQR) = 5.5 - 7.5 = -2

Q3+1.5(IQR)=10.5+7.5=18Q_3 + 1.5(IQR) = 10.5 + 7.5 = 18

Tất cả các giá trị dữ liệu đều nằm giữa 2-21818, nên không có ngoại lệ nào theo quy tắc đó. Với tập dữ liệu này, hộp sẽ kéo dài từ 5.55.5 đến 10.510.5, đường trung vị sẽ ở 7.57.5, và các râu sẽ vươn tới 331515.

Cách đọc nhanh biểu đồ hộp

Bắt đầu với đường trung vị. Nó cho bạn biết tâm của dữ liệu nằm ở đâu.

Sau đó so sánh độ rộng của hộp và độ dài của các râu. Hộp cho biết 50%50\% giá trị ở giữa nằm ở đâu, còn các râu cho biết các đuôi kéo dài xa đến mức nào ngoài vùng đó.

Cuối cùng, hãy tìm sự bất đối xứng. Nếu trung vị không nằm giữa hộp, hoặc một râu dài hơn nhiều so với râu kia, thì phân phối có thể không cân bằng quanh trung tâm.

Những lỗi thường gặp với biểu đồ hộp và râu

Một lỗi phổ biến là đọc hai cạnh của hộp như giá trị nhỏ nhất và lớn nhất. Chúng thường biểu diễn Q1Q_1Q3Q_3, chứ không phải hai đầu mút của toàn bộ tập dữ liệu.

Một lỗi khác là cho rằng mọi biểu đồ hộp đều dùng cùng một quy tắc vẽ râu. Có biểu đồ kéo râu đến giá trị nhỏ nhất và lớn nhất. Có biểu đồ khác dừng ở những giá trị không phải ngoại lệ xa nhất.

Cũng rất dễ quên rằng các tứ phân vị phụ thuộc vào dữ liệu đã được sắp xếp. Nếu các giá trị chưa được sắp xếp trước, thì tứ phân vị và trung vị sẽ sai.

Khi nào biểu đồ hộp hữu ích

Biểu đồ hộp và râu hữu ích khi bạn muốn có một bản tóm tắt nhanh về phân phối thay vì một danh sách đầy đủ các giá trị. Chúng thường gặp trong các lớp thống kê, phần tóm tắt thí nghiệm, kiểm soát chất lượng và so sánh giữa các nhóm.

Chúng đặc biệt hữu ích khi ngoại lệ hoặc độ lệch là điều quan trọng, vì trung vị và các tứ phân vị thường ổn định hơn so với chỉ dùng trung bình cộng.

Hãy thử với một tập dữ liệu tương tự

Hãy lấy một tập dữ liệu ngắn đã được sắp xếp, viết tóm tắt năm số của nó và phác thảo hộp trước khi bạn nghĩ đến ngoại lệ. Nếu muốn kiểm tra tứ phân vị và trung vị của mình trên một bài toán thống kê tương tự, hãy thử phiên bản riêng của bạn trong một công cụ giải sau khi tự thiết lập danh sách đã sắp xếp.

Cần trợ giúp giải bài?

Tải câu hỏi lên và nhận lời giải từng bước đã được xác minh trong vài giây.

Mở GPAI Solver →