箱线图可以让你一眼看出一组数据的中心位置、离散程度以及可能的偏态。它基于五数概括构成:最小值、第一四分位数 、中位数、第三四分位数 和最大值。如果你的课堂或软件使用 规则,那么“须”可能会停在最极端的非离群值处,而不是绝对最小值和最大值。
箱体从 延伸到 ,因此包含中间 的数据。箱体内部的线表示中位数。两侧的“须”表示数据在这中间一半之外延伸了多远。
箱线图展示了什么
箱线图可以帮助你快速回答三个问题:
- 中间位置在哪里?看中位数。
- 中间一半数据有多分散?看箱体的宽度。
- 两端是否平衡?比较两条“须”。
箱体的宽度就是四分位距,即 。 越大,说明中间一半的数据越分散。如果一侧的“须”明显比另一侧长,数据可能就向那个方向偏斜。
很多箱线图还会使用 规则来标记可能的离群值。在这种画法中,“须”会停在最极端的非离群值处。这就是为什么同一组数据的两个正确箱线图,如果采用不同的“须”规则,外观可能会略有不同。
从数据到箱线图的示例
使用下面这组按顺序排列的数据:
共有 个数,因此中位数是中间两个数的平均值:
因为数据点个数是偶数,所以把这组数据分成两个相等的部分。下半部分是 ,所以
上半部分是 ,所以
这样就得到五数概括:
现在计算四分位距:
如果使用常见的 离群值规则,那么上下界为
以及
所有数据值都落在 到 之间,所以按照这个规则没有可能的离群值。对于这组数据,箱体会从 延伸到 ,中位数线在 ,两条“须”分别到达 和 。
如何快速读懂箱线图
先看中位数线。它告诉你数据中心大致位于哪里。
然后比较箱体的宽度和两条“须”的长度。箱体表示中间 的数值所在范围,而“须”表示两端在这个区域之外延伸了多远。
最后观察是否存在不对称。如果中位数在线箱体内部偏向一侧,或者一条“须”明显比另一条长,那么这个分布在中间附近可能并不平衡。
箱线图中的常见错误
一个常见错误是把箱体两端读成最小值和最大值。它们通常表示的是 和 ,而不是整组数据的两个端点。
另一个错误是认为所有箱线图都使用相同的“须”规则。有些图中的“须”延伸到最小值和最大值,另一些则停在最极端的非离群值处。
还很容易忽略一点:四分位数依赖于有序数据。如果没有先排序,那么四分位数和中位数都会出错。
什么时候箱线图有用
当你想快速概括一个分布,而不是查看完整的数据列表时,箱线图就非常有用。它常见于统计课、实验结果总结、质量控制以及组间比较。
当离群值或偏态很重要时,它尤其有帮助,因为中位数和四分位数通常比单独使用平均数更稳定。
试试一组类似的数据
找一组较短且已经排好序的数据,先写出它的五数概括,再画出箱体,不必一开始就纠结离群值。如果你想在类似的统计题中检查自己的四分位数和中位数,可以先自己列好有序数据,再用求解工具验证。