离散程度的度量告诉你一组数据有多分散。三种基本度量是极差方差标准差。极差只使用最小值和最大值,方差衡量数据与均值之间平方距离的平均大小,而标准差是方差的平方根,因此它把离散程度带回到原始单位中。

如果你想快速抓住重点:快速查看数据分布宽度时用极差,做正式统计分析时用方差,想要一个更容易解释的离散程度指标时用标准差。

极差、方差和标准差速览

极差是最小值到最大值之间的距离:

range=maximumminimum\text{range} = \text{maximum} - \text{minimum}

它计算很快,但只用到了两个数值。一个极端值就可能让它发生很大变化。

方差衡量的是:把各个数值与均值的距离平方后,这些平方距离通常有多大。

对于一个完整总体,

σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2

对于用来估计更大总体的样本,

s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2

只有当你的数据就是你关心的整个总体时,才使用 NN。当你的数据是从更大群体中抽取的样本时,使用 n1n-1

标准差是方差的平方根:

σ=σ2\sigma = \sqrt{\sigma^2}

或者,对于样本,

s=s2s = \sqrt{s^2}

因为它使用的是原始单位,所以标准差通常比方差更容易理解。

例题:极差相同,但离散程度不同

比较下面两组数据:

  • A 组:2,5,5,5,82, 5, 5, 5, 8
  • B 组:2,2,5,8,82, 2, 5, 8, 8

它们有相同的最小值、相同的最大值,也有相同的均值。

对于每一组,

range=82=6\text{range} = 8 - 2 = 6

并且

mean=255=5\text{mean} = \frac{25}{5} = 5

所以仅看极差,会认为它们一样宽。但这些数值围绕均值的分布方式并不相同。

A 组

相对于均值的离差是

3, 0, 0, 0, 3-3,\ 0,\ 0,\ 0,\ 3

平方后得到

9, 0, 0, 0, 99,\ 0,\ 0,\ 0,\ 9

离差平方和是 1818。如果把这组数据看作总体,那么

σ2=185=3.6\sigma^2 = \frac{18}{5} = 3.6

并且

σ=3.61.90\sigma = \sqrt{3.6} \approx 1.90

B 组

相对于均值的离差是

3, 3, 0, 3, 3-3,\ -3,\ 0,\ 3,\ 3

平方后得到

9, 9, 0, 9, 99,\ 9,\ 0,\ 9,\ 9

离差平方和是 3636,所以

σ2=365=7.2\sigma^2 = \frac{36}{5} = 7.2

并且

σ=7.22.68\sigma = \sqrt{7.2} \approx 2.68

两组数据的极差相同,但 B 组的方差和标准差更大。这正是关键:极差只看两端点,而方差和标准差会利用整组数据。

离散程度度量中的常见错误

一个常见错误是认为极差相同就表示离散程度相同。上面的例子说明了为什么这种看法是错误的。

另一个错误是把方差当作原始单位下的量。其实不是。如果数据单位是米,那么方差的单位就是平方米。

第三个错误是混淆总体公式和样本公式。正确的分母取决于具体情境:完整总体用 NN,样本用 n1n-1

还要记住,方差和标准差对离群值比较敏感,因为较大的离差在取平均之前会先被平方。

每种度量什么时候有用

当你只是想快速看一眼数据分布有多宽时,用极差

当你需要在其他统计方法中使用离散程度指标时,用方差。概率与统计中的许多公式都是围绕方差建立的,即使最后报告时展示的是标准差。

当你想用与数据相同的单位来描述离散程度时,用标准差。在很多课堂总结和现实应用中,它通常是最容易读懂的选择。

试试类似的问题

自己构造两组较短的数据,让它们有相同的均值和相同的极差,然后比较它们的方差和标准差。如果你想更进一步,可以先手算,再到求解器里试试你自己的版本。

需要解题帮助?

上传你的问题,几秒钟内获得经过验证的分步解答。

打开 GPAI Solver →