累积频数就是频数表中的逐步累加总和。它告诉你有多少个观测值小于或等于某个数值或组界,因此在求中位数、四分位数和百分位数时非常有用。

累计频数曲线就是把这个累加总和画成图像。只要你能结合频数表和图像一起看,分组数据题就会容易得多。

累积频数的定义

如果各组频数为 f1,f2,,fkf_1, f_2, \dots, f_k,那么到第 kk 组为止的累积频数是

Fk=f1+f2++fkF_k = f_1 + f_2 + \cdots + f_k

每一行都会把新的一组加入总和中。如果某一组结束时的累积频数是 2828,那么说明有 2828 个观测值落在这一组或更小的组中。

对于未分组数据,累积频数就是一个逐步累加的计数。对于分组数据,它则是按组距进行的逐步累加计数。

累计频数曲线如何帮助读取百分位数

累计频数曲线是在组界与累积频数之间作图。对于连续型分组数据,通常绘制的是:

  • 横轴取上组界
  • 纵轴取累积频数

然后用平滑曲线或分段线把这些点连接起来。由于累积频数不会减少,所以曲线一定是上升的。

累计频数曲线的主要用途,是读取有序数据中的位置。如果总频数是 NN,那么:

  • 中位数大约是第 N/2N/2 个值
  • 第一四分位数大约是第 N/4N/4 个值
  • 第三四分位数大约是第 3N/43N/4 个值
  • pp 个百分位数大约是第 (p/100)N(p/100)N 个值

在图上,你先从这个纵向位置出发,水平移动到累计频数曲线,再向下投影到横轴来估计对应的数值。

例题:中位数与第 75 百分位数

假设 4040 名学生的测试成绩分组如下:

分数 频数 累积频数
0-10 22 22
10-20 55 77
20-30 99 1616
30-40 1212 2828
40-50 88 3636
50-60 44 4040

总频数为 N=40N = 40

从表中求中位数

中位数是第 N/2=20N/2 = 20 个值。

观察累积频数:

  • 到 20-30 为止,总数是 1616
  • 到 30-40 为止,总数是 2828

所以第 2020 个值落在 3030-4040 这一组中。

如果你想对分组数据作估计,只有在把该组内数据看作分布较均匀时,才适合使用插值法。此时

medianL+N/2Fbeforefw\text{median} \approx L + \frac{N/2 - F_{\text{before}}}{f} \cdot w

这里:

  • L=30L = 30 是该组的下边界
  • Fbefore=16F_{\text{before}} = 16 是该组之前的累积频数
  • f=12f = 12 是该组频数
  • w=10w = 10 是组距宽度

所以

median30+20161210=30+401233.3\text{median} \approx 30 + \frac{20 - 16}{12} \cdot 10 = 30 + \frac{40}{12} \approx 33.3

这个估计值并不是精确值。它依赖于一个假设:即 3030-4040 这一组内的数据分布较为平滑。

估计第 75 百分位数

7575 百分位数是第 (75/100)40=30(75/100) \cdot 40 = 30 个值。

根据累积频数:

  • 到 30-40 为止,总数是 2828
  • 到 40-50 为止,总数是 3636

所以第 3030 个值落在 4040-5050 这一组中。

用同样的插值思路,

P7540+3028810=42.5P_{75} \approx 40 + \frac{30 - 28}{8} \cdot 10 = 42.5

在累计频数曲线上,你会先在累积频数轴上标出 3030,水平移到曲线,再向下读到分数轴上的约 42.542.5

累积频数中的常见错误

混淆频数和累积频数

频数表示某一组中有多少个观测值。累积频数表示这一组以及之前所有组加起来共有多少个观测值。

使用了错误的位置

求中位数或百分位数时,位置由总频数 NN 决定。如果总数用错了,后面的每一步都会出错。

把分组估计当成精确值

累计频数曲线或插值法给出的是组内估计值,不是原始数据中的精确值。这个估计取决于该组区间内数据的分布方式。

横轴取值画错了

对于分组数据,累计频数曲线通常是对组界作图,尤其是上组界。如果改用组中值作图,图像的含义就变了。

什么时候会用到累积频数

只要你关心的是数据集中的顺序位置,而不只是每组的计数,就会用到累积频数。这包括考试成绩汇总、收入分布、质量控制数据,以及任何百分位数或中位数比单个组频数更重要的情形。

当原始数据很多时,它尤其有用,因为分组表通常比一长串观测值更容易阅读。

试着做一道类似的累积频数题

任选一个小型分组表,先加上一列累积频数,再绘制累计频数曲线。然后从图上读出中位数和一个百分位数,并与根据表格得到的估计值进行比较。

如果你还想再检验一次,可以自己设定 N=50N = 50,然后思考第 202025254545 个值会落在哪一组。这是帮助你真正理解这个概念的简单方法。

需要解题帮助?

上传你的问题,几秒钟内获得经过验证的分步解答。

打开 GPAI Solver →