箱线图可以让你一眼看出一组数据的中心位置、离散程度以及可能的偏态。它基于五数概括构成:最小值、第一四分位数 Q1Q_1、中位数、第三四分位数 Q3Q_3 和最大值。如果你的课堂或软件使用 1.5×IQR1.5 \times IQR 规则,那么“须”可能会停在最极端的非离群值处,而不是绝对最小值和最大值。

箱体从 Q1Q_1 延伸到 Q3Q_3,因此包含中间 50%50\% 的数据。箱体内部的线表示中位数。两侧的“须”表示数据在这中间一半之外延伸了多远。

箱线图展示了什么

箱线图可以帮助你快速回答三个问题:

  • 中间位置在哪里?看中位数。
  • 中间一半数据有多分散?看箱体的宽度。
  • 两端是否平衡?比较两条“须”。

箱体的宽度就是四分位距,即 IQR=Q3Q1IQR = Q_3 - Q_1IQRIQR 越大,说明中间一半的数据越分散。如果一侧的“须”明显比另一侧长,数据可能就向那个方向偏斜。

很多箱线图还会使用 1.5×IQR1.5 \times IQR 规则来标记可能的离群值。在这种画法中,“须”会停在最极端的非离群值处。这就是为什么同一组数据的两个正确箱线图,如果采用不同的“须”规则,外观可能会略有不同。

从数据到箱线图的示例

使用下面这组按顺序排列的数据:

3, 5, 6, 7, 8, 9, 12, 153,\ 5,\ 6,\ 7,\ 8,\ 9,\ 12,\ 15

共有 88 个数,因此中位数是中间两个数的平均值:

median=7+82=7.5\text{median} = \frac{7 + 8}{2} = 7.5

因为数据点个数是偶数,所以把这组数据分成两个相等的部分。下半部分是 3,5,6,73, 5, 6, 7,所以

Q1=5+62=5.5Q_1 = \frac{5 + 6}{2} = 5.5

上半部分是 8,9,12,158, 9, 12, 15,所以

Q3=9+122=10.5Q_3 = \frac{9 + 12}{2} = 10.5

这样就得到五数概括:

min=3,Q1=5.5,median=7.5,Q3=10.5,max=15\text{min} = 3,\quad Q_1 = 5.5,\quad \text{median} = 7.5,\quad Q_3 = 10.5,\quad \text{max} = 15

现在计算四分位距:

IQR=Q3Q1=10.55.5=5IQR = Q_3 - Q_1 = 10.5 - 5.5 = 5

如果使用常见的 1.5×IQR1.5 \times IQR 离群值规则,那么上下界为

Q11.5(IQR)=5.57.5=2Q_1 - 1.5(IQR) = 5.5 - 7.5 = -2

以及

Q3+1.5(IQR)=10.5+7.5=18Q_3 + 1.5(IQR) = 10.5 + 7.5 = 18

所有数据值都落在 2-21818 之间,所以按照这个规则没有可能的离群值。对于这组数据,箱体会从 5.55.5 延伸到 10.510.5,中位数线在 7.57.5,两条“须”分别到达 331515

如何快速读懂箱线图

先看中位数线。它告诉你数据中心大致位于哪里。

然后比较箱体的宽度和两条“须”的长度。箱体表示中间 50%50\% 的数值所在范围,而“须”表示两端在这个区域之外延伸了多远。

最后观察是否存在不对称。如果中位数在线箱体内部偏向一侧,或者一条“须”明显比另一条长,那么这个分布在中间附近可能并不平衡。

箱线图中的常见错误

一个常见错误是把箱体两端读成最小值和最大值。它们通常表示的是 Q1Q_1Q3Q_3,而不是整组数据的两个端点。

另一个错误是认为所有箱线图都使用相同的“须”规则。有些图中的“须”延伸到最小值和最大值,另一些则停在最极端的非离群值处。

还很容易忽略一点:四分位数依赖于有序数据。如果没有先排序,那么四分位数和中位数都会出错。

什么时候箱线图有用

当你想快速概括一个分布,而不是查看完整的数据列表时,箱线图就非常有用。它常见于统计课、实验结果总结、质量控制以及组间比较。

当离群值或偏态很重要时,它尤其有帮助,因为中位数和四分位数通常比单独使用平均数更稳定。

试试一组类似的数据

找一组较短且已经排好序的数据,先写出它的五数概括,再画出箱体,不必一开始就纠结离群值。如果你想在类似的统计题中检查自己的四分位数和中位数,可以先自己列好有序数据,再用求解工具验证。

需要解题帮助?

上传你的问题,几秒钟内获得经过验证的分步解答。

打开 GPAI Solver →