频数分布是一种表格或图形,用来表示数据集中每个数值、类别或区间出现的次数。如果数据量较大,通常会把相近的数值归入若干组距中,而每个区间中的计数就是频数。

它之所以有用,是因为原始数据往往不容易一眼看出规律。频数分布能快速把模式显示出来:数值集中在哪里、哪里开始变少,以及哪些结果最常见。

频数分布表与分组频数表

对于未分组数据,表格可以把每个数值分别列出来。如果分数是 4,5,5,6,6,64, 5, 5, 6, 6, 6,那么 66 的频数是 33,因为它出现了三次。

对于较大的数值型数据集,具体数值通常会按区间分组,例如 4040-49495050-59596060-6969。这种形式叫做分组频数分布。

组距是如何起作用的

组距是把相近数值归入同一组时所使用的范围。一个好的分组表中,每个观测值都应当恰好落入一个组,而且各组之间不能重叠。

如果你使用 1010-19192020-29293030-3939 这样的区间,那么像 2424 这样的数值就只会属于其中一个组。这个清晰的规则很重要。如果组限互相重叠,表格就会变得含糊不清。

组宽就是每个区间的大小。如果各组是 1010-19192020-29293030-3939,那么组宽是固定的。这在绘制直方图时很重要:只有当组宽相等时,才可以直接比较柱高。

例题:读取频数分布

假设一位老师记录了 2020 名学生的小测成绩,并按区间分组:

分数区间 频数
00-99 22
1010-1919 55
2020-2929 88
3030-3939 44
4040-4949 11

区间 2020-2929 的频数最高,所以它是最常见的分数范围。这并不表示每个学生都得了同一个分数,而是表示有 88 名学生的成绩落在这个区间内。

这些频数相加也正好等于学生总人数:

2+5+8+4+1=202 + 5 + 8 + 4 + 1 = 20

如果你想要的是比例而不是计数,就使用相对频数:

relative frequency=frequencytotal number of observations\text{relative frequency} = \frac{\text{frequency}}{\text{total number of observations}}

对于区间 2020-2929,相对频数是:

820=0.4\frac{8}{20} = 0.4

所以有 40%40\% 的学生得分在 20202929 之间。

频数分布图:条形图还是直方图?

频数分布可以用表格、条形图或直方图来表示。该用哪一种图,取决于你手里的数据类型。

当你统计的是彼此独立的类别时,例如最喜欢的水果或交通方式,就使用条形图。条形之间是分开的,因为这些类别本身就是离散的。

当你把数值型数据按区间分组时,就使用直方图。柱子之间相连,因为这些区间表示的是连续刻度。

如果所有组距宽度都相同,那么直方图中更高的柱子就表示更大的频数。如果组宽不同,仅看柱高就可能产生误导。在这种情况下,直方图应使用频数密度,这样表示频数的是柱形面积,而不只是高度。

频数分布表中的常见错误

混淆类别和区间

用于类别的条形图和用于分组数值数据的直方图含义并不相同。使用错误的图表,可能会掩盖数据本身的结构。

使用重叠的组别

区间必须有明确规则。像 00-10101010-2020 这样的设置会有问题,除非你明确说明数值 1010 应该归入哪一组。

忘记分组会隐藏细节

分组频数分布是在概括数据,但它不会保留每一个原始数值。把分数归入区间后,你会更容易看出整体模式,但也会失去一部分精确性。

把不等宽的柱子当成等宽来比较

如果一个组距的宽度是另一个的两倍,那么读取该直方图时就不能和等宽直方图用同样的方法。条件很重要:组宽相等时可以直接比较柱高;组宽不等时则不可以。

频数分布在什么时候使用

频数分布常见于统计学、课堂教学、问卷调查、质量控制和实验室工作中。当原始数据列表长到无法快速看出规律时,它就特别有用。

它也是许多相关概念的起点,例如直方图、累积频数、分组平均数以及离散程度的估计。

试着做一道类似的问题

从练习题、实验结果或分数列表中选取 15152020 个数。先制作一个未分组频数表,再把同一组数据重新按组距分组。比较这两个版本,是理解频数分布能帮助你发现什么、以及分组会隐藏哪些细节的最快方法之一。

需要解题帮助?

上传你的问题,几秒钟内获得经过验证的分步解答。

打开 GPAI Solver →