协方差——公式、含义与和相关系数的区别

协方差衡量两个变量是否倾向于同时高于或低于各自的均值。正协方差表示这两个变量相对于各自平均值通常朝同一方向变化。负协方差表示一个变量往往高于平均值时，另一个却低于平均值。

对大多数学生来说，关键点是：符号通常比原始数值更有用。协方差的大小取决于两个变量的单位，因此它本身并不是一个干净的强度刻度。

样本与总体的协方差公式

对于成对样本数据，一个常见公式是

s_{xy} = \frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})

这里的 $\bar{x}$ 和 $\bar{y}$ 是样本均值。当一对数据分别落在两个均值的同一侧时，每个乘积 $(x_i-\bar{x})(y_i-\bar{y})$ 为正；当它们落在相反侧时，乘积为负。

如果你处理的是完整总体而不是样本，分母通常用 $N$ 而不是 $n-1$ ：

\mathrm{Cov}(X,Y) = \frac{1}{N}\sum_{i=1}^N (x_i-\mu_x)(y_i-\mu_y)

样本数据用样本公式；只有当数据代表你要描述的整个总体时，才使用总体公式。

协方差是由成对数据相对于均值的离差构成的。

如果两个离差都为正，它们的乘积为正。如果两个离差都为负，它们的乘积也为正。这些数据对会把协方差往上推，因为变量相对于各自中心位置是同向变化的。

如果一个离差为正，另一个为负，那么乘积为负。这些数据对会把协方差往下拉，因为变量在朝相反方向变化。

所以，协方差本质上就是“围绕均值共同变化”的平均结果。

假设一个小样本记录了学习时长和测验分数：

(1,70),\ (2,80),\ (3,90)

先求均值：

\bar{x} = \frac{1+2+3}{3} = 2

\bar{y} = \frac{70+80+90}{3} = 80

现在计算离差及其乘积：

把这些乘积相加：

10 + 0 + 10 = 20

因为这是样本协方差，所以除以 $n-1 = 2$ ：

s_{xy} = \frac{20}{2} = 10

协方差为正，因此在这个样本中两个变量是同向变化的。在这里，学习时间越多，测验分数越高。

需要特别注意的是， $10$ 并不是一个通用的强度刻度。它的大小取决于这里的单位：小时乘以分数点数。如果你改变测量尺度，即使整体模式仍然相似，协方差也会随之改变。

协方差和相关系数关系密切，但回答的问题略有不同。

协方差告诉你共同变化的方向，并保留原始尺度。相关系数则会在标准差不为零时，用协方差除以标准差来对这种关系进行标准化：

r = \frac{s_{xy}}{s_x s_y}

这就是为什么相关系数没有单位，也更容易在不同数据集之间比较。它的取值始终在 $-1$ 到 $1$ 之间，而协方差没有固定范围。

在实际中：

协方差为 $100$ 并不一定比协方差为 $5$ “更强”。变量可能只是采用了更大的测量尺度。

如果你的数据是样本，标准做法是除以 $n-1$ 。如果你的数据就是所关心的整个总体，则应除以 $N$ 。

协方差接近 $0$ 表示围绕均值的线性共同变化很弱。它并不能排除非线性关系。

如果两个变量相互独立且协方差存在，那么协方差为 $0$ 。反过来则不一定成立。

协方差只描述变量如何一起变化，并不能解释它们为什么会一起变化。

在统计学、金融、机器学习和数据分析中，只要需要一起研究成对变量，就会用到协方差。

它尤其常见于协方差矩阵，其中每个元素都概括了两个变量如何共同变化。这在投资组合风险、主成分分析和多变量建模等领域都很重要。

任选三组或四组成对数据，先求两个均值，再把每对数据的离差相乘并求平均。这个过程会让你对协方差符号的理解更具体。

如果你想继续下一步，可以把同一组数据与相关系数进行比较，看看尺度标准化后解释会发生什么变化。

上传你的问题，几秒钟内获得经过验证的分步解答。