相关系数通常指皮尔逊相关系数,记作 。它衡量两个数值变量之间线性关系的方向和强度。
如果 为正,两个变量往往会一起增大。如果 为负,一个变量增大时,另一个往往减小。如果 接近 ,皮尔逊 表示线性模式很弱,但不一定代表完全没有关系。
当数据是成对出现的、两个变量都是数值型,而且你想概括的是直线趋势时,皮尔逊 最有用。
相关系数告诉你什么
皮尔逊 是衡量两个变量如何共同变化的标准化指标。对于一组成对样本数据,其公式为
当两个变量倾向于同方向变化时,分子为正;当它们倾向于反方向变化时,分子为负。分母则利用每个变量自身的离散程度,对这种共同变化进行重新缩放。
当皮尔逊 有定义时,它一定满足
如果其中一个变量完全没有变化,分母就会变成 ,因此皮尔逊 无定义。
如何解读正值、负值和接近零的值
先看符号:
- :正线性关联
- :负线性关联
- :无线性关联
再看大小 。越接近 ,说明数据点越贴近一条直线模式。越接近 ,说明线性模式越弱。
对于“弱”“中等”或“强”这样的标签要谨慎。它们的划分取决于具体背景。在某些领域, 可能已经很重要;而在另一些领域,它可能太小,不足以支持决策。
最稳妥的做法,是把 和散点图一起看。这个数值只是你所看到模式的概括,不应该取代图形本身。
例题:计算
假设成对数据为
先计算均值:
现在列出相对均值的离差:
- 对于 :
- 对于 :
将每对离差相乘并求和:
再计算两个平方和:
所以
这说明该样本中存在较强的正线性关联。随着 增大, 通常也会增大,而且这些点会比较接近一条向上倾斜的直线。
解读相关性时的常见错误
把相关当成因果
高相关并不能证明一个变量导致了另一个变量。可能有第三个因素同时影响两者,也可能这种关系只是观测数据中的巧合。
忘记皮尔逊 只反映线性关系
皮尔逊 只适合衡量线性关联。即使两个变量明显有关,若关系是弯曲的,相关系数也可能很小。
忽略离群点
一个异常点就可能大幅改变 。如果散点图中有离群点,那么相关系数对整体模式的描述可能会产生误导。
在不适合的情境下使用皮尔逊
皮尔逊 是为成对数值型数据和线性关联设计的。如果其中一个变量是类别型,或者模式明显是弯曲的,那么这个系数可能并不能回答你真正关心的问题。
过度解读接近零的值
接近 的数值表示“线性关联很弱”,而不是“完全没有任何关系”。
什么时候使用皮尔逊相关系数
皮尔逊 常用于统计学、科学、经济学、社会研究和机器学习中,用来快速概括成对数值型数据。当你想先判断是否存在直线模式,再进一步建立线性回归等模型时,它尤其有用。
在实际应用中,应该先看散点图。相关系数只是总结,不是替代你观察数据本身的工具。
试试类似的问题
选取一组你已经比较熟悉的小数据集,先画出散点图,在计算 之前,先估计趋势看起来是正相关、负相关,还是不明显。这样的快速对比,是建立对相关系数直觉的最快方法之一。
如果你想再进一步,可以用同一组数据配上一条简单线性回归线来观察。这样更容易看出相关性和预测之间有关联,但两者并不相同。