协方差衡量两个变量是否倾向于同时高于或低于各自的均值。正协方差表示这两个变量相对于各自平均值通常朝同一方向变化。负协方差表示一个变量往往高于平均值时,另一个却低于平均值。
对大多数学生来说,关键点是:符号通常比原始数值更有用。协方差的大小取决于两个变量的单位,因此它本身并不是一个干净的强度刻度。
样本与总体的协方差公式
对于成对样本数据,一个常见公式是
这里的 和 是样本均值。当一对数据分别落在两个均值的同一侧时,每个乘积 为正;当它们落在相反侧时,乘积为负。
如果你处理的是完整总体而不是样本,分母通常用 而不是 :
样本数据用样本公式;只有当数据代表你要描述的整个总体时,才使用总体公式。
如何理解协方差的符号
协方差是由成对数据相对于均值的离差构成的。
如果两个离差都为正,它们的乘积为正。如果两个离差都为负,它们的乘积也为正。这些数据对会把协方差往上推,因为变量相对于各自中心位置是同向变化的。
如果一个离差为正,另一个为负,那么乘积为负。这些数据对会把协方差往下拉,因为变量在朝相反方向变化。
所以,协方差本质上就是“围绕均值共同变化”的平均结果。
例题:学习时长与测验分数
假设一个小样本记录了学习时长和测验分数:
先求均值:
现在计算离差及其乘积:
- 对于 :
- 对于 :
- 对于 :
把这些乘积相加:
因为这是样本协方差,所以除以 :
协方差为正,因此在这个样本中两个变量是同向变化的。在这里,学习时间越多,测验分数越高。
需要特别注意的是, 并不是一个通用的强度刻度。它的大小取决于这里的单位:小时乘以分数点数。如果你改变测量尺度,即使整体模式仍然相似,协方差也会随之改变。
协方差与相关系数:关键区别
协方差和相关系数关系密切,但回答的问题略有不同。
协方差告诉你共同变化的方向,并保留原始尺度。相关系数则会在标准差不为零时,用协方差除以标准差来对这种关系进行标准化:
这就是为什么相关系数没有单位,也更容易在不同数据集之间比较。它的取值始终在 到 之间,而协方差没有固定范围。
在实际中:
- 当你关心原始单位下的共同变动,或者它出现在更大的计算中(如协方差矩阵)时,使用协方差。
- 当你想要一个无单位、便于跨数据集比较的总结指标时,使用相关系数。
协方差中的常见错误
把较大的协方差自动当成更强关系
协方差为 并不一定比协方差为 “更强”。变量可能只是采用了更大的测量尺度。
混淆样本公式和总体公式
如果你的数据是样本,标准做法是除以 。如果你的数据就是所关心的整个总体,则应除以 。
认为协方差为零就表示完全没有关系
协方差接近 表示围绕均值的线性共同变化很弱。它并不能排除非线性关系。
如果两个变量相互独立且协方差存在,那么协方差为 。反过来则不一定成立。
把协方差理解为因果关系
协方差只描述变量如何一起变化,并不能解释它们为什么会一起变化。
协方差的应用场景
在统计学、金融、机器学习和数据分析中,只要需要一起研究成对变量,就会用到协方差。
它尤其常见于协方差矩阵,其中每个元素都概括了两个变量如何共同变化。这在投资组合风险、主成分分析和多变量建模等领域都很重要。
试着做一道类似题
任选三组或四组成对数据,先求两个均值,再把每对数据的离差相乘并求平均。这个过程会让你对协方差符号的理解更具体。
如果你想继续下一步,可以把同一组数据与相关系数进行比较,看看尺度标准化后解释会发生什么变化。