频数分布——表格、图表与组距

频数分布是一种表格或图形，用来表示数据集中每个数值、类别或区间出现的次数。如果数据量较大，通常会把相近的数值归入若干组距中，而每个区间中的计数就是频数。

它之所以有用，是因为原始数据往往不容易一眼看出规律。频数分布能快速把模式显示出来：数值集中在哪里、哪里开始变少，以及哪些结果最常见。

频数分布表与分组频数表

对于未分组数据，表格可以把每个数值分别列出来。如果分数是 $4, 5, 5, 6, 6, 6$ ，那么 $6$ 的频数是 $3$ ，因为它出现了三次。

对于较大的数值型数据集，具体数值通常会按区间分组，例如 $40$ - $49$ 、 $50$ - $59$ 和 $60$ - $69$ 。这种形式叫做分组频数分布。

组距是把相近数值归入同一组时所使用的范围。一个好的分组表中，每个观测值都应当恰好落入一个组，而且各组之间不能重叠。

如果你使用 $10$ - $19$ 、 $20$ - $29$ 和 $30$ - $39$ 这样的区间，那么像 $24$ 这样的数值就只会属于其中一个组。这个清晰的规则很重要。如果组限互相重叠，表格就会变得含糊不清。

组宽就是每个区间的大小。如果各组是 $10$ - $19$ 、 $20$ - $29$ 和 $30$ - $39$ ，那么组宽是固定的。这在绘制直方图时很重要：只有当组宽相等时，才可以直接比较柱高。

假设一位老师记录了 $20$ 名学生的小测成绩，并按区间分组：

区间 $20$ - $29$ 的频数最高，所以它是最常见的分数范围。这并不表示每个学生都得了同一个分数，而是表示有 $8$ 名学生的成绩落在这个区间内。

这些频数相加也正好等于学生总人数：

2 + 5 + 8 + 4 + 1 = 20

如果你想要的是比例而不是计数，就使用相对频数：

\text{relative frequency} = \frac{\text{frequency}}{\text{total number of observations}}

对于区间 $20$ - $29$ ，相对频数是：

\frac{8}{20} = 0.4

所以有 $40\%$ 的学生得分在 $20$ 到 $29$ 之间。

频数分布可以用表格、条形图或直方图来表示。该用哪一种图，取决于你手里的数据类型。

当你统计的是彼此独立的类别时，例如最喜欢的水果或交通方式，就使用条形图。条形之间是分开的，因为这些类别本身就是离散的。

当你把数值型数据按区间分组时，就使用直方图。柱子之间相连，因为这些区间表示的是连续刻度。

如果所有组距宽度都相同，那么直方图中更高的柱子就表示更大的频数。如果组宽不同，仅看柱高就可能产生误导。在这种情况下，直方图应使用频数密度，这样表示频数的是柱形面积，而不只是高度。

用于类别的条形图和用于分组数值数据的直方图含义并不相同。使用错误的图表，可能会掩盖数据本身的结构。

区间必须有明确规则。像 $0$ - $10$ 和 $10$ - $20$ 这样的设置会有问题，除非你明确说明数值 $10$ 应该归入哪一组。

分组频数分布是在概括数据，但它不会保留每一个原始数值。把分数归入区间后，你会更容易看出整体模式，但也会失去一部分精确性。

如果一个组距的宽度是另一个的两倍，那么读取该直方图时就不能和等宽直方图用同样的方法。条件很重要：组宽相等时可以直接比较柱高；组宽不等时则不可以。

频数分布常见于统计学、课堂教学、问卷调查、质量控制和实验室工作中。当原始数据列表长到无法快速看出规律时，它就特别有用。

它也是许多相关概念的起点，例如直方图、累积频数、分组平均数以及离散程度的估计。

从练习题、实验结果或分数列表中选取 $15$ 到 $20$ 个数。先制作一个未分组频数表，再把同一组数据重新按组距分组。比较这两个版本，是理解频数分布能帮助你发现什么、以及分组会隐藏哪些细节的最快方法之一。

上传你的问题，几秒钟内获得经过验证的分步解答。