频数分布是一种表格或图形,用来表示数据集中每个数值、类别或区间出现的次数。如果数据量较大,通常会把相近的数值归入若干组距中,而每个区间中的计数就是频数。
它之所以有用,是因为原始数据往往不容易一眼看出规律。频数分布能快速把模式显示出来:数值集中在哪里、哪里开始变少,以及哪些结果最常见。
频数分布表与分组频数表
对于未分组数据,表格可以把每个数值分别列出来。如果分数是 ,那么 的频数是 ,因为它出现了三次。
对于较大的数值型数据集,具体数值通常会按区间分组,例如 -、- 和 -。这种形式叫做分组频数分布。
组距是如何起作用的
组距是把相近数值归入同一组时所使用的范围。一个好的分组表中,每个观测值都应当恰好落入一个组,而且各组之间不能重叠。
如果你使用 -、- 和 - 这样的区间,那么像 这样的数值就只会属于其中一个组。这个清晰的规则很重要。如果组限互相重叠,表格就会变得含糊不清。
组宽就是每个区间的大小。如果各组是 -、- 和 -,那么组宽是固定的。这在绘制直方图时很重要:只有当组宽相等时,才可以直接比较柱高。
例题:读取频数分布
假设一位老师记录了 名学生的小测成绩,并按区间分组:
| 分数区间 | 频数 |
|---|---|
| - | |
| - | |
| - | |
| - | |
| - |
区间 - 的频数最高,所以它是最常见的分数范围。这并不表示每个学生都得了同一个分数,而是表示有 名学生的成绩落在这个区间内。
这些频数相加也正好等于学生总人数:
如果你想要的是比例而不是计数,就使用相对频数:
对于区间 -,相对频数是:
所以有 的学生得分在 到 之间。
频数分布图:条形图还是直方图?
频数分布可以用表格、条形图或直方图来表示。该用哪一种图,取决于你手里的数据类型。
当你统计的是彼此独立的类别时,例如最喜欢的水果或交通方式,就使用条形图。条形之间是分开的,因为这些类别本身就是离散的。
当你把数值型数据按区间分组时,就使用直方图。柱子之间相连,因为这些区间表示的是连续刻度。
如果所有组距宽度都相同,那么直方图中更高的柱子就表示更大的频数。如果组宽不同,仅看柱高就可能产生误导。在这种情况下,直方图应使用频数密度,这样表示频数的是柱形面积,而不只是高度。
频数分布表中的常见错误
混淆类别和区间
用于类别的条形图和用于分组数值数据的直方图含义并不相同。使用错误的图表,可能会掩盖数据本身的结构。
使用重叠的组别
区间必须有明确规则。像 - 和 - 这样的设置会有问题,除非你明确说明数值 应该归入哪一组。
忘记分组会隐藏细节
分组频数分布是在概括数据,但它不会保留每一个原始数值。把分数归入区间后,你会更容易看出整体模式,但也会失去一部分精确性。
把不等宽的柱子当成等宽来比较
如果一个组距的宽度是另一个的两倍,那么读取该直方图时就不能和等宽直方图用同样的方法。条件很重要:组宽相等时可以直接比较柱高;组宽不等时则不可以。
频数分布在什么时候使用
频数分布常见于统计学、课堂教学、问卷调查、质量控制和实验室工作中。当原始数据列表长到无法快速看出规律时,它就特别有用。
它也是许多相关概念的起点,例如直方图、累积频数、分组平均数以及离散程度的估计。
试着做一道类似的问题
从练习题、实验结果或分数列表中选取 到 个数。先制作一个未分组频数表,再把同一组数据重新按组距分组。比较这两个版本,是理解频数分布能帮助你发现什么、以及分组会隐藏哪些细节的最快方法之一。