Tần số tích lũy là tổng dồn trong một bảng tần số. Nó cho biết có bao nhiêu quan sát nhỏ hơn hoặc bằng một giá trị hay ranh giới lớp, nên rất hữu ích khi tìm trung vị, tứ phân vị và các phân vị.

Đường cong ogive là đồ thị của tổng dồn đó. Khi bạn biết cách đọc bảng và đồ thị cùng nhau, các bài toán về dữ liệu ghép lớp sẽ trở nên dễ hơn nhiều.

Định nghĩa tần số tích lũy

Nếu các tần số lớp là f1,f2,,fkf_1, f_2, \dots, f_k, thì tần số tích lũy đến lớp kk

Fk=f1+f2++fkF_k = f_1 + f_2 + \cdots + f_k

Mỗi hàng sẽ cộng thêm một lớp vào tổng. Nếu tần số tích lũy là 2828 ở cuối một lớp, thì có 2828 quan sát nằm trong lớp đó hoặc ở các lớp thấp hơn.

Với dữ liệu không ghép lớp, tần số tích lũy chỉ là số đếm cộng dồn. Với dữ liệu ghép lớp, đó là số đếm cộng dồn theo từng khoảng lớp.

Đường cong ogive giúp đọc phân vị như thế nào

Đường cong ogive biểu diễn tần số tích lũy theo các ranh giới lớp. Với dữ liệu liên tục ghép lớp, bạn thường vẽ:

  • ranh giới trên của lớp trên trục ngang
  • tần số tích lũy trên trục dọc

Sau đó nối các điểm bằng một đường cong trơn hoặc các đoạn thẳng. Đường này luôn đi lên vì tần số tích lũy không bao giờ giảm.

Công dụng chính của đường cong ogive là đọc các vị trí trong tập dữ liệu đã sắp thứ tự. Nếu tổng tần số là NN, thì:

  • trung vị xấp xỉ là giá trị thứ N/2N/2
  • tứ phân vị thứ nhất xấp xỉ là giá trị thứ N/4N/4
  • tứ phân vị thứ ba xấp xỉ là giá trị thứ 3N/43N/4
  • phân vị thứ pp xấp xỉ là giá trị thứ (p/100)N(p/100)N

Trên đồ thị, bạn bắt đầu từ vị trí đó trên trục dọc, kẻ ngang đến đường cong ogive, rồi dóng xuống trục ngang để ước lượng giá trị.

Ví dụ có lời giải: Trung vị và phân vị thứ 75

Giả sử điểm kiểm tra của 4040 học sinh được ghép lớp như sau:

Điểm Tần số Tần số tích lũy
0-10 22 22
10-20 55 77
20-30 99 1616
30-40 1212 2828
40-50 88 3636
50-60 44 4040

Tổng tần số là N=40N = 40.

Tìm trung vị từ bảng

Trung vị là giá trị thứ N/2=20N/2 = 20.

Xét các tần số tích lũy:

  • đến 20-30, tổng là 1616
  • đến 30-40, tổng là 2828

Vậy giá trị thứ 2020 nằm trong lớp 3030-4040.

Nếu muốn ước lượng theo dữ liệu ghép lớp, chỉ nên dùng nội suy khi hợp lý để coi các giá trị phân bố khá đều trong lớp đó. Khi đó

medianL+N/2Fbeforefw\text{median} \approx L + \frac{N/2 - F_{\text{before}}}{f} \cdot w

Ở đây:

  • L=30L = 30 là ranh giới dưới của lớp
  • Fbefore=16F_{\text{before}} = 16 là tần số tích lũy trước lớp đó
  • f=12f = 12 là tần số của lớp
  • w=10w = 10 là độ rộng lớp

Vậy

median30+20161210=30+401233.3\text{median} \approx 30 + \frac{20 - 16}{12} \cdot 10 = 30 + \frac{40}{12} \approx 33.3

Ước lượng này không chính xác tuyệt đối. Nó phụ thuộc vào giả định rằng các giá trị trong lớp 3030-4040 được phân bố khá đều.

Ước lượng phân vị thứ 75

Phân vị thứ 7575 là giá trị thứ (75/100)40=30(75/100) \cdot 40 = 30.

Từ các tần số tích lũy:

  • đến 30-40, tổng là 2828
  • đến 40-50, tổng là 3636

Vậy giá trị thứ 3030 nằm trong lớp 4040-5050.

Dùng cùng ý tưởng nội suy,

P7540+3028810=42.5P_{75} \approx 40 + \frac{30 - 28}{8} \cdot 10 = 42.5

Trên đường cong ogive, bạn sẽ đánh dấu 3030 trên trục tần số tích lũy, kẻ ngang đến đường cong, rồi dóng xuống trục điểm để đọc được khoảng 42.542.5.

Những lỗi thường gặp với tần số tích lũy

Nhầm lẫn giữa tần số và tần số tích lũy

Tần số cho biết có bao nhiêu quan sát trong một lớp. Tần số tích lũy cho biết có bao nhiêu quan sát trong lớp đó và tất cả các lớp trước đó cộng lại.

Dùng sai vị trí

Với trung vị hoặc một phân vị, vị trí được tính từ tổng tần số NN. Nếu bạn dùng sai tổng, mọi bước sau đó đều sẽ sai.

Coi các ước lượng từ dữ liệu ghép lớp là chính xác tuyệt đối

Đường cong ogive hoặc nội suy chỉ cho một giá trị ước lượng trong một lớp, không phải giá trị dữ liệu gốc chính xác. Ước lượng đó phụ thuộc vào cách dữ liệu phân bố trong khoảng lớp.

Vẽ sai giá trị trên trục ngang

Với dữ liệu ghép lớp, đường cong ogive thường được vẽ theo các ranh giới lớp, đặc biệt là ranh giới trên của lớp. Nếu vẽ theo trung điểm lớp thì ý nghĩa sẽ thay đổi.

Khi nào dùng tần số tích lũy

Tần số tích lũy được dùng khi bạn cần biết vị trí theo thứ tự trong một tập dữ liệu, thay vì chỉ cần số lượng ở từng lớp. Điều đó bao gồm tóm tắt điểm thi, phân bố thu nhập, dữ liệu kiểm soát chất lượng và mọi tình huống mà phân vị hoặc trung vị quan trọng hơn số đếm của từng khoảng.

Nó đặc biệt hữu ích khi dữ liệu gốc quá lớn và một bảng ghép lớp dễ đọc hơn một danh sách dài các quan sát.

Hãy thử một bài tương tự về tần số tích lũy

Hãy lấy bất kỳ bảng ghép lớp nhỏ nào và thêm một cột tần số tích lũy trước khi vẽ đường cong ogive. Sau đó đọc trung vị và một phân vị từ đồ thị rồi so sánh với giá trị ước lượng từ bảng.

Nếu muốn kiểm tra thêm, hãy tự tạo một ví dụ với N=50N = 50 và hỏi xem các giá trị thứ 2020, 25254545 sẽ rơi vào đâu. Đó là một cách đơn giản để ghi nhớ ý tưởng này.

Cần trợ giúp giải bài?

Tải câu hỏi lên và nhận lời giải từng bước đã được xác minh trong vài giây.

Mở GPAI Solver →