直方图用来表示数值型数据落在各个区间中的次数,例如 到 或 到 。组距是每个区间的大小,频数是落在该区间内的数据个数。
想快速读懂直方图,先看横轴上的区间标签,再找最高的柱形,并注意柱形在哪些地方变矮或消失。这能告诉你数据主要集中在哪里,以及哪些地方数据较少。
直方图能告诉你什么
直方图适用于按范围分组的数值型数据,这些范围通常叫作组或箱。柱形之间相连,是因为这些区间在数轴上彼此相邻。
这也是为什么直方图和条形图不一样。条形图比较的是彼此独立的类别,比如运动项目或颜色。直方图展示的是数据分布的形状。
频数与组距
某一组的频数,就是落在该区间内的观测值个数。如果 到 这一组包含 个测试分数,那么它的频数就是 。
组距就是区间的大小。对于从 到 的这一组,组距是 。当每一组的组距都相同时,柱形越高就表示频数越大。
如果各组组距不相等,就不能直接比较柱形高度。在很多课程中,这时纵轴会改用频率密度,这样表示频数的是柱形面积,而不只是高度。
所以在比较柱形之前,先检查各组是否等宽,并确认纵轴表示的是什么量。
组距相等时的直方图示例
假设某个直方图总结了下面这些小测成绩:
| 分数区间 | 频数 |
|---|---|
| 到 | |
| 到 | |
| 到 | |
| 到 | |
| 到 |
每一组的组距都是 ,所以可以直接比较柱形高度。
最高的柱形是 到 ,所以这个区间内的分数最多。大多数分数落在 到 之间,而低于 或高于 的只有少数。
一个清晰的总结可以是:这些分数集中在中间,其中 到 之间最集中。
如何一步一步读直方图
先看横轴,这样你就知道每个柱形表示哪个区间。然后检查各组的组距是否相同。
如果组距相同,最高的柱形就表示最常见的区间。接着观察整体形状:中心大致在哪里,哪里有空缺,哪一侧延伸得更远?
如果组距不同,先不要急着比较高度。你需要先确认图中使用的是频数还是频率密度。
常见错误
把直方图和条形图混淆
在直方图中,柱形通常是相连的,因为各区间是连续的。在条形图中,各类别彼此分开,所以柱形之间有空隙是正常的。
忽略组距
学生常常不先检查各区间是否等宽,就直接比较高度。只有在组距相同,或者纵轴已经用频率密度调整过时,这样做才是对的。
不严谨地处理区间端点
分组数据需要对组界有一致的规定。例如,分数 应该只属于一个组,而不是同时属于两个组。通常可以从标签或具体语境中看出哪一侧端点被包含。
以为能读出原始数据的精确值
直方图展示的是分组后的汇总数据。它很适合看整体规律,但不像茎叶图那样,不能让你还原每一个原始数值。
什么时候直方图很有用
当你想快速了解数值型数据是如何分布时,直方图就很有用。它常见于统计学、科学实验、考试成绩、响应时间和质量控制数据中。
在计算概括性统计量之前,直方图尤其有帮助,因为它能先让你看出数据是否大致对称、偏斜、成簇,或者分布得特别分散。
一个实用的下一步
找一组较小的数值型数据,把它按等宽区间分组,并手动画出一个直方图。然后在计算平均数或中位数之前,先用一句话描述它的分布规律。想进一步练习的话,可以尝试使用不同的组距,看看图形会怎样变化。