累积频数就是频数表中的逐步累加总和。它告诉你有多少个观测值小于或等于某个数值或组界,因此在求中位数、四分位数和百分位数时非常有用。
累计频数曲线就是把这个累加总和画成图像。只要你能结合频数表和图像一起看,分组数据题就会容易得多。
累积频数的定义
如果各组频数为 ,那么到第 组为止的累积频数是
每一行都会把新的一组加入总和中。如果某一组结束时的累积频数是 ,那么说明有 个观测值落在这一组或更小的组中。
对于未分组数据,累积频数就是一个逐步累加的计数。对于分组数据,它则是按组距进行的逐步累加计数。
累计频数曲线如何帮助读取百分位数
累计频数曲线是在组界与累积频数之间作图。对于连续型分组数据,通常绘制的是:
- 横轴取上组界
- 纵轴取累积频数
然后用平滑曲线或分段线把这些点连接起来。由于累积频数不会减少,所以曲线一定是上升的。
累计频数曲线的主要用途,是读取有序数据中的位置。如果总频数是 ,那么:
- 中位数大约是第 个值
- 第一四分位数大约是第 个值
- 第三四分位数大约是第 个值
- 第 个百分位数大约是第 个值
在图上,你先从这个纵向位置出发,水平移动到累计频数曲线,再向下投影到横轴来估计对应的数值。
例题:中位数与第 75 百分位数
假设 名学生的测试成绩分组如下:
| 分数 | 频数 | 累积频数 |
|---|---|---|
| 0-10 | ||
| 10-20 | ||
| 20-30 | ||
| 30-40 | ||
| 40-50 | ||
| 50-60 |
总频数为 。
从表中求中位数
中位数是第 个值。
观察累积频数:
- 到 20-30 为止,总数是
- 到 30-40 为止,总数是
所以第 个值落在 - 这一组中。
如果你想对分组数据作估计,只有在把该组内数据看作分布较均匀时,才适合使用插值法。此时
这里:
- 是该组的下边界
- 是该组之前的累积频数
- 是该组频数
- 是组距宽度
所以
这个估计值并不是精确值。它依赖于一个假设:即 - 这一组内的数据分布较为平滑。
估计第 75 百分位数
第 百分位数是第 个值。
根据累积频数:
- 到 30-40 为止,总数是
- 到 40-50 为止,总数是
所以第 个值落在 - 这一组中。
用同样的插值思路,
在累计频数曲线上,你会先在累积频数轴上标出 ,水平移到曲线,再向下读到分数轴上的约 。
累积频数中的常见错误
混淆频数和累积频数
频数表示某一组中有多少个观测值。累积频数表示这一组以及之前所有组加起来共有多少个观测值。
使用了错误的位置
求中位数或百分位数时,位置由总频数 决定。如果总数用错了,后面的每一步都会出错。
把分组估计当成精确值
累计频数曲线或插值法给出的是组内估计值,不是原始数据中的精确值。这个估计取决于该组区间内数据的分布方式。
横轴取值画错了
对于分组数据,累计频数曲线通常是对组界作图,尤其是上组界。如果改用组中值作图,图像的含义就变了。
什么时候会用到累积频数
只要你关心的是数据集中的顺序位置,而不只是每组的计数,就会用到累积频数。这包括考试成绩汇总、收入分布、质量控制数据,以及任何百分位数或中位数比单个组频数更重要的情形。
当原始数据很多时,它尤其有用,因为分组表通常比一长串观测值更容易阅读。
试着做一道类似的累积频数题
任选一个小型分组表,先加上一列累积频数,再绘制累计频数曲线。然后从图上读出中位数和一个百分位数,并与根据表格得到的估计值进行比较。
如果你还想再检验一次,可以自己设定 ,然后思考第 、 和 个值会落在哪一组。这是帮助你真正理解这个概念的简单方法。