相关系数——皮尔逊 r 与解读

相关系数通常指皮尔逊相关系数，记作 $r$ 。它衡量两个数值变量之间线性关系的方向和强度。

如果 $r$ 为正，两个变量往往会一起增大。如果 $r$ 为负，一个变量增大时，另一个往往减小。如果 $r$ 接近 $0$ ，皮尔逊 $r$ 表示线性模式很弱，但不一定代表完全没有关系。

当数据是成对出现的、两个变量都是数值型，而且你想概括的是直线趋势时，皮尔逊 $r$ 最有用。

如何解读正值、负值和接近零的值

先看符号：

$r > 0$ ：正线性关联
$r < 0$ ：负线性关联
$r = 0$ ：无线性关联

再看大小 $|r|$ 。越接近 $1$ ，说明数据点越贴近一条直线模式。越接近 $0$ ，说明线性模式越弱。

对于“弱”“中等”或“强”这样的标签要谨慎。它们的划分取决于具体背景。在某些领域， $r = 0.3$ 可能已经很重要；而在另一些领域，它可能太小，不足以支持决策。

最稳妥的做法，是把 $r$ 和散点图一起看。这个数值只是你所看到模式的概括，不应该取代图形本身。

例题：计算 $r = 0.9$

假设成对数据为

(1,2),\ (2,3),\ (3,5),\ (4,4),\ (5,6)

先计算均值：

\bar{x} = \frac{1+2+3+4+5}{5} = 3

\bar{y} = \frac{2+3+5+4+6}{5} = 4

现在列出相对均值的离差：

对于 $x$ ： $-2, -1, 0, 1, 2$
对于 $y$ ： $-2, -1, 1, 0, 2$

将每对离差相乘并求和：

(-2)(-2) + (-1)(-1) + (0)(1) + (1)(0) + (2)(2) = 4 + 1 + 0 + 0 + 4 = 9

再计算两个平方和：

\sum (x_i-\bar{x})^2 = 4+1+0+1+4 = 10

\sum (y_i-\bar{y})^2 = 4+1+1+0+4 = 10

所以

r = \frac{9}{\sqrt{10 \cdot 10}} = \frac{9}{10} = 0.9

这说明该样本中存在较强的正线性关联。随着 $x$ 增大， $y$ 通常也会增大，而且这些点会比较接近一条向上倾斜的直线。

解读相关性时的常见错误

把相关当成因果

高相关并不能证明一个变量导致了另一个变量。可能有第三个因素同时影响两者，也可能这种关系只是观测数据中的巧合。

忘记皮尔逊 $r$ 只反映线性关系

皮尔逊 $r$ 只适合衡量线性关联。即使两个变量明显有关，若关系是弯曲的，相关系数也可能很小。

忽略离群点

一个异常点就可能大幅改变 $r$ 。如果散点图中有离群点，那么相关系数对整体模式的描述可能会产生误导。

在不适合的情境下使用皮尔逊 $r$

皮尔逊 $r$ 是为成对数值型数据和线性关联设计的。如果其中一个变量是类别型，或者模式明显是弯曲的，那么这个系数可能并不能回答你真正关心的问题。

过度解读接近零的值

接近 $0$ 的数值表示“线性关联很弱”，而不是“完全没有任何关系”。

什么时候使用皮尔逊相关系数

皮尔逊 $r$ 常用于统计学、科学、经济学、社会研究和机器学习中，用来快速概括成对数值型数据。当你想先判断是否存在直线模式，再进一步建立线性回归等模型时，它尤其有用。

在实际应用中，应该先看散点图。相关系数只是总结，不是替代你观察数据本身的工具。

试试类似的问题

选取一组你已经比较熟悉的小数据集，先画出散点图，在计算 $r$ 之前，先估计趋势看起来是正相关、负相关，还是不明显。这样的快速对比，是建立对相关系数直觉的最快方法之一。

如果你想再进一步，可以用同一组数据配上一条简单线性回归线来观察。这样更容易看出相关性和预测之间有关联，但两者并不相同。

常见问题

相关系数衡量的是什么？: 皮尔逊相关系数 $r$ 衡量两个数值变量之间线性关系的方向和强度。
相关系数为 $0$ 意味着什么？: 这表示皮尔逊 $r$ 没有检测到线性关联，但并不自动意味着两者完全没有任何关系。
相关是否意味着因果？: 不。即使相关性很大，也不能仅凭这一点说明一个变量导致了另一个变量。

需要解题帮助？

上传你的问题，几秒钟内获得经过验证的分步解答。

打开 GPAI Solver →