箱线图,也叫盒须图,用来展示一组数据的中心位置以及离散程度。它会突出显示中位数、数据中间的 ,以及靠近两端的数值,因此你可以快速看出数据的整体分布形状。
其中最重要的标记是第一四分位数 、中位数、第三四分位数 ,以及四分位距 。一开始就要注意一点:四分位数并没有唯一统一的定义规则。如果你的课堂、教材或软件采用了某一种四分位数计算方法,就要从头到尾保持一致。
箱线图一眼能看出什么
箱体从 延伸到 ,所以它包含了中间 的数据。箱体中间的那条线表示中位数。
“须”表示数据在箱体之外延伸了多远。有些箱线图的须会一直画到最小值和最大值;另一些则只画到不被视为离群值的最极端数据点。在判断须表示什么之前,你必须先知道采用的是哪条规则。
四分位数和 IQR 是怎么回事
四分位距用来衡量数据中间一半的离散程度:
越大,说明中间一半的数据越分散。 越小,说明这些数据越集中。
如何一步一步画箱线图
每次都按同样的顺序进行:
- 先把数据从小到大排序。
- 找出中位数。
- 按照你需要使用的四分位数规则,求出 和 。
- 画一条数轴,并标出 、中位数和 。
- 从 到 画出箱体,并在箱体内画出中位数所在的线。
- 按照你的课堂或软件要求的规则,加上两端的须。
例题:为箱线图求四分位数
先看这组已经排好序的数据:
一共有 个数,所以中位数是第 5 个数:
这个例子采用课堂中常见的规则:在求上下两半数据时,不把整体中位数算进去。
下半部分数据是:
所以
上半部分数据是:
所以
现在求四分位距:
这样就得到了箱体的关键标记:
如果须画到最小值和最大值,那么它们会延伸到 和 。因此,箱体从 延伸到 ,中位数线位于 ,整张图的范围从 到 。
如何快速读懂箱线图
先看中位数,以确定数据的中心位置。
然后看箱体的宽度。箱体窄,表示中间一半的数据比较集中;箱体宽,表示这些数据更分散。
最后,比较两侧须的长度,以及中位数在线箱中的位置。如果某一侧明显更长,说明分布在那一侧可能拉得更开。
箱线图中的常见错误
不要跳过排序这一步。如果数据没有按顺序排列,中位数和四分位数都会算错。
不要以为所有箱线图都使用相同的四分位数规则或相同的须规则。即使都正确,采用不同约定画出的图也可能不一样。
不要把箱体的两端看成最小值和最大值。它们通常表示的是 和 。
也不要认为箱体更宽就表示那个区域“数据更多”。它表示的是该区域的数值在数轴上覆盖了更宽的区间。
什么时候箱线图特别有用
当你想快速了解数据的中心和离散程度,而不想把每个数值都一一列出来时,箱线图就很有用。它尤其适合并排比较两个或多个数据组。
在统计课、实验报告,以及任何更关注中位数和中间一半数据而不是每个具体数值的场景中,箱线图都很常见。
自己试着画一个
找一组较短且已经排好序的数据,先求出五数概括,再手动画出箱线图。然后把结果和绘图工具生成的图进行比较,检查你的四分位数规则和须规则是否一致。