离散程度的度量告诉你一组数据有多分散。三种基本度量是极差、方差和标准差。极差只使用最小值和最大值,方差衡量数据与均值之间平方距离的平均大小,而标准差是方差的平方根,因此它把离散程度带回到原始单位中。
如果你想快速抓住重点:快速查看数据分布宽度时用极差,做正式统计分析时用方差,想要一个更容易解释的离散程度指标时用标准差。
极差、方差和标准差速览
极差是最小值到最大值之间的距离:
它计算很快,但只用到了两个数值。一个极端值就可能让它发生很大变化。
方差衡量的是:把各个数值与均值的距离平方后,这些平方距离通常有多大。
对于一个完整总体,
对于用来估计更大总体的样本,
只有当你的数据就是你关心的整个总体时,才使用 。当你的数据是从更大群体中抽取的样本时,使用 。
标准差是方差的平方根:
或者,对于样本,
因为它使用的是原始单位,所以标准差通常比方差更容易理解。
例题:极差相同,但离散程度不同
比较下面两组数据:
- A 组:
- B 组:
它们有相同的最小值、相同的最大值,也有相同的均值。
对于每一组,
并且
所以仅看极差,会认为它们一样宽。但这些数值围绕均值的分布方式并不相同。
A 组
相对于均值的离差是
平方后得到
离差平方和是 。如果把这组数据看作总体,那么
并且
B 组
相对于均值的离差是
平方后得到
离差平方和是 ,所以
并且
两组数据的极差相同,但 B 组的方差和标准差更大。这正是关键:极差只看两端点,而方差和标准差会利用整组数据。
离散程度度量中的常见错误
一个常见错误是认为极差相同就表示离散程度相同。上面的例子说明了为什么这种看法是错误的。
另一个错误是把方差当作原始单位下的量。其实不是。如果数据单位是米,那么方差的单位就是平方米。
第三个错误是混淆总体公式和样本公式。正确的分母取决于具体情境:完整总体用 ,样本用 。
还要记住,方差和标准差对离群值比较敏感,因为较大的离差在取平均之前会先被平方。
每种度量什么时候有用
当你只是想快速看一眼数据分布有多宽时,用极差。
当你需要在其他统计方法中使用离散程度指标时,用方差。概率与统计中的许多公式都是围绕方差建立的,即使最后报告时展示的是标准差。
当你想用与数据相同的单位来描述离散程度时,用标准差。在很多课堂总结和现实应用中,它通常是最容易读懂的选择。
试试类似的问题
自己构造两组较短的数据,让它们有相同的均值和相同的极差,然后比较它们的方差和标准差。如果你想更进一步,可以先手算,再到求解器里试试你自己的版本。