相关系数通常指皮尔逊相关系数,记作 rr。它衡量两个数值变量之间线性关系的方向和强度。

如果 rr 为正,两个变量往往会一起增大。如果 rr 为负,一个变量增大时,另一个往往减小。如果 rr 接近 00,皮尔逊 rr 表示线性模式很弱,但不一定代表完全没有关系。

当数据是成对出现的、两个变量都是数值型,而且你想概括的是直线趋势时,皮尔逊 rr 最有用。

相关系数告诉你什么

皮尔逊 rr 是衡量两个变量如何共同变化的标准化指标。对于一组成对样本数据,其公式为

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \sum_{i=1}^n (y_i-\bar{y})^2}}

当两个变量倾向于同方向变化时,分子为正;当它们倾向于反方向变化时,分子为负。分母则利用每个变量自身的离散程度,对这种共同变化进行重新缩放。

当皮尔逊 rr 有定义时,它一定满足

1r1-1 \le r \le 1

如果其中一个变量完全没有变化,分母就会变成 00,因此皮尔逊 rr 无定义。

如何解读正值、负值和接近零的值

先看符号:

  • r>0r > 0:正线性关联
  • r<0r < 0:负线性关联
  • r=0r = 0:无线性关联

再看大小 r|r|。越接近 11,说明数据点越贴近一条直线模式。越接近 00,说明线性模式越弱。

对于“弱”“中等”或“强”这样的标签要谨慎。它们的划分取决于具体背景。在某些领域,r=0.3r = 0.3 可能已经很重要;而在另一些领域,它可能太小,不足以支持决策。

最稳妥的做法,是把 rr 和散点图一起看。这个数值只是你所看到模式的概括,不应该取代图形本身。

例题:计算 r=0.9r = 0.9

假设成对数据为

(1,2), (2,3), (3,5), (4,4), (5,6)(1,2),\ (2,3),\ (3,5),\ (4,4),\ (5,6)

先计算均值:

xˉ=1+2+3+4+55=3\bar{x} = \frac{1+2+3+4+5}{5} = 3 yˉ=2+3+5+4+65=4\bar{y} = \frac{2+3+5+4+6}{5} = 4

现在列出相对均值的离差:

  • 对于 xx2,1,0,1,2-2, -1, 0, 1, 2
  • 对于 yy2,1,1,0,2-2, -1, 1, 0, 2

将每对离差相乘并求和:

(2)(2)+(1)(1)+(0)(1)+(1)(0)+(2)(2)=4+1+0+0+4=9(-2)(-2) + (-1)(-1) + (0)(1) + (1)(0) + (2)(2) = 4 + 1 + 0 + 0 + 4 = 9

再计算两个平方和:

(xixˉ)2=4+1+0+1+4=10\sum (x_i-\bar{x})^2 = 4+1+0+1+4 = 10 (yiyˉ)2=4+1+1+0+4=10\sum (y_i-\bar{y})^2 = 4+1+1+0+4 = 10

所以

r=91010=910=0.9r = \frac{9}{\sqrt{10 \cdot 10}} = \frac{9}{10} = 0.9

这说明该样本中存在较强的正线性关联。随着 xx 增大,yy 通常也会增大,而且这些点会比较接近一条向上倾斜的直线。

解读相关性时的常见错误

把相关当成因果

高相关并不能证明一个变量导致了另一个变量。可能有第三个因素同时影响两者,也可能这种关系只是观测数据中的巧合。

忘记皮尔逊 rr 只反映线性关系

皮尔逊 rr 只适合衡量线性关联。即使两个变量明显有关,若关系是弯曲的,相关系数也可能很小。

忽略离群点

一个异常点就可能大幅改变 rr。如果散点图中有离群点,那么相关系数对整体模式的描述可能会产生误导。

在不适合的情境下使用皮尔逊 rr

皮尔逊 rr 是为成对数值型数据和线性关联设计的。如果其中一个变量是类别型,或者模式明显是弯曲的,那么这个系数可能并不能回答你真正关心的问题。

过度解读接近零的值

接近 00 的数值表示“线性关联很弱”,而不是“完全没有任何关系”。

什么时候使用皮尔逊相关系数

皮尔逊 rr 常用于统计学、科学、经济学、社会研究和机器学习中,用来快速概括成对数值型数据。当你想先判断是否存在直线模式,再进一步建立线性回归等模型时,它尤其有用。

在实际应用中,应该先看散点图。相关系数只是总结,不是替代你观察数据本身的工具。

试试类似的问题

选取一组你已经比较熟悉的小数据集,先画出散点图,在计算 rr 之前,先估计趋势看起来是正相关、负相关,还是不明显。这样的快速对比,是建立对相关系数直觉的最快方法之一。

如果你想再进一步,可以用同一组数据配上一条简单线性回归线来观察。这样更容易看出相关性和预测之间有关联,但两者并不相同。

需要解题帮助?

上传你的问题,几秒钟内获得经过验证的分步解答。

打开 GPAI Solver →