方差用来衡量一组数字围绕其平均值的离散程度。方差小,表示各个数值通常比较接近平均值。方差大,表示它们分布得更分散。

计算方差时,先求每个数值与平均值的差,再把这些差平方,最后求平均。平方这一步很重要,因为如果不平方,正偏差和负偏差会相互抵消。

方差公式:总体 vs. 样本

当你的数据包含了你想描述的整个群体中的所有数值时,使用总体方差公式:

σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2

当你的数据只是一个样本,而你想估计更大总体的离散程度时,使用样本方差公式:

s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2

两者唯一的区别在于分母。完整总体用 NN。样本估计用 n1n-1

方差的含义

方差并不告诉你数据中心在哪里。它告诉你数据通常离这个中心有多远。

如果两组数据的平均值相同,那么方差较大的那一组,其数值平均来说离平均值更远。由于偏差被平方,特别大的差距会产生更大的影响。

还有一个重要细节:方差的单位是原单位的平方。如果数据单位是米,那么方差单位就是平方米。这也是为什么在日常使用中,标准差通常更容易解释。

如何计算方差:完整示例

使用数据集 2,4,4,4,5,5,7,92, 4, 4, 4, 5, 5, 7, 9

先求平均值:

xˉ=2+4+4+4+5+5+7+98=408=5\bar{x} = \frac{2+4+4+4+5+5+7+9}{8} = \frac{40}{8} = 5

现在用每个数值减去平均值,再将结果平方:

  • (25)2=9(2-5)^2 = 9
  • (45)2=1(4-5)^2 = 1
  • (45)2=1(4-5)^2 = 1
  • (45)2=1(4-5)^2 = 1
  • (55)2=0(5-5)^2 = 0
  • (55)2=0(5-5)^2 = 0
  • (75)2=4(7-5)^2 = 4
  • (95)2=16(9-5)^2 = 16

把这些平方后的偏差相加:

9+1+1+1+0+0+4+16=329+1+1+1+0+0+4+16 = 32

如果这 8 个数值就是完整总体,那么总体方差为:

σ2=328=4\sigma^2 = \frac{32}{8} = 4

如果把这 8 个数值看作来自更大总体的样本,那么样本方差为:

s2=3274.57s^2 = \frac{32}{7} \approx 4.57

这个例子清楚地说明了核心思想:平方偏差是一样的,但最终结果会因为你除以 NN 还是除以 n1n-1 而不同。

方差的常见错误

  • 忘记对偏差平方。如果你直接对原始偏差求平均,正值和负值会相互抵消,这样就无法正确衡量离散程度。
  • 混淆总体方差和样本方差。完整总体除以 NN,用于估计更大总体的样本除以 n1n-1
  • 忘记方差使用的是平方单位。方差很有用,但标准差通常更容易理解,因为它回到了原始单位。
  • 认为方差大就一定不好。方差大只表示更分散,是否重要取决于具体情境。

方差的应用场景

只要你需要以一致的方式描述或比较离散程度,就会用到方差。

  • 在统计学中,它有助于概括一组数据的分散程度。
  • 在质量控制中,它可以帮助跟踪一个过程是否随着时间保持稳定。
  • 在金融中,方差可用于描述收益波动的大小,不过它只是理解风险的一种方式。
  • 在机器学习和数据分析中,它有助于描述不同观测值之间特征或误差的变化情况。

试着做一道类似的题

你可以自己试试,用两组平均值相同但离散程度不同的小数据集。分别计算它们的方差,看看分布更宽的那组是否得到更大的数值。只做这一次比较,通常就能真正理解这个概念。

需要解题帮助?

上传你的问题,几秒钟内获得经过验证的分步解答。

打开 GPAI Solver →