协方差衡量两个变量是否倾向于同时高于或低于各自的均值。正协方差表示这两个变量相对于各自平均值通常朝同一方向变化。负协方差表示一个变量往往高于平均值时,另一个却低于平均值。

对大多数学生来说,关键点是:符号通常比原始数值更有用。协方差的大小取决于两个变量的单位,因此它本身并不是一个干净的强度刻度。

样本与总体的协方差公式

对于成对样本数据,一个常见公式是

sxy=1n1i=1n(xixˉ)(yiyˉ)s_{xy} = \frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})

这里的 xˉ\bar{x}yˉ\bar{y} 是样本均值。当一对数据分别落在两个均值的同一侧时,每个乘积 (xixˉ)(yiyˉ)(x_i-\bar{x})(y_i-\bar{y}) 为正;当它们落在相反侧时,乘积为负。

如果你处理的是完整总体而不是样本,分母通常用 NN 而不是 n1n-1

Cov(X,Y)=1Ni=1N(xiμx)(yiμy)\mathrm{Cov}(X,Y) = \frac{1}{N}\sum_{i=1}^N (x_i-\mu_x)(y_i-\mu_y)

样本数据用样本公式;只有当数据代表你要描述的整个总体时,才使用总体公式。

如何理解协方差的符号

协方差是由成对数据相对于均值的离差构成的。

如果两个离差都为正,它们的乘积为正。如果两个离差都为负,它们的乘积也为正。这些数据对会把协方差往上推,因为变量相对于各自中心位置是同向变化的。

如果一个离差为正,另一个为负,那么乘积为负。这些数据对会把协方差往下拉,因为变量在朝相反方向变化。

所以,协方差本质上就是“围绕均值共同变化”的平均结果。

例题:学习时长与测验分数

假设一个小样本记录了学习时长和测验分数:

(1,70), (2,80), (3,90)(1,70),\ (2,80),\ (3,90)

先求均值:

xˉ=1+2+33=2\bar{x} = \frac{1+2+3}{3} = 2 yˉ=70+80+903=80\bar{y} = \frac{70+80+90}{3} = 80

现在计算离差及其乘积:

  • 对于 (1,70)(1,70)(12)(7080)=(1)(10)=10(1-2)(70-80) = (-1)(-10) = 10
  • 对于 (2,80)(2,80)(22)(8080)=0(2-2)(80-80) = 0
  • 对于 (3,90)(3,90)(32)(9080)=(1)(10)=10(3-2)(90-80) = (1)(10) = 10

把这些乘积相加:

10+0+10=2010 + 0 + 10 = 20

因为这是样本协方差,所以除以 n1=2n-1 = 2

sxy=202=10s_{xy} = \frac{20}{2} = 10

协方差为正,因此在这个样本中两个变量是同向变化的。在这里,学习时间越多,测验分数越高。

需要特别注意的是,1010 并不是一个通用的强度刻度。它的大小取决于这里的单位:小时乘以分数点数。如果你改变测量尺度,即使整体模式仍然相似,协方差也会随之改变。

协方差与相关系数:关键区别

协方差和相关系数关系密切,但回答的问题略有不同。

协方差告诉你共同变化的方向,并保留原始尺度。相关系数则会在标准差不为零时,用协方差除以标准差来对这种关系进行标准化:

r=sxysxsyr = \frac{s_{xy}}{s_x s_y}

这就是为什么相关系数没有单位,也更容易在不同数据集之间比较。它的取值始终在 1-111 之间,而协方差没有固定范围。

在实际中:

  • 当你关心原始单位下的共同变动,或者它出现在更大的计算中(如协方差矩阵)时,使用协方差。
  • 当你想要一个无单位、便于跨数据集比较的总结指标时,使用相关系数。

协方差中的常见错误

把较大的协方差自动当成更强关系

协方差为 100100 并不一定比协方差为 55 “更强”。变量可能只是采用了更大的测量尺度。

混淆样本公式和总体公式

如果你的数据是样本,标准做法是除以 n1n-1。如果你的数据就是所关心的整个总体,则应除以 NN

认为协方差为零就表示完全没有关系

协方差接近 00 表示围绕均值的线性共同变化很弱。它并不能排除非线性关系。

如果两个变量相互独立且协方差存在,那么协方差为 00。反过来则不一定成立。

把协方差理解为因果关系

协方差只描述变量如何一起变化,并不能解释它们为什么会一起变化。

协方差的应用场景

在统计学、金融、机器学习和数据分析中,只要需要一起研究成对变量,就会用到协方差。

它尤其常见于协方差矩阵,其中每个元素都概括了两个变量如何共同变化。这在投资组合风险、主成分分析和多变量建模等领域都很重要。

试着做一道类似题

任选三组或四组成对数据,先求两个均值,再把每对数据的离差相乘并求平均。这个过程会让你对协方差符号的理解更具体。

如果你想继续下一步,可以把同一组数据与相关系数进行比较,看看尺度标准化后解释会发生什么变化。

需要解题帮助?

上传你的问题,几秒钟内获得经过验证的分步解答。

打开 GPAI Solver →