ANOVA 是 analysis of variance(方差分析)的缩写,用来检验多个组之间的平均结果是否存在差异。在单因素方差分析中,你要比较组均值之间的变异与组内变异,这会得到 统计量。
当你有一个分类分组变量、一个定量响应变量,并且希望做一次总体检验,而不是进行许多次单独的 检验时,它通常就是合适的工具。如果组间变异相对于组内变异较大,这就表明并非所有总体均值都相等。
对于经典的单因素方差分析,检验统计量为
其中, 是组间均方, 是组内均方。 越大,说明各组均值之间的分离程度越高,超出了仅由普通组内随机波动所能解释的范围。
ANOVA 检验什么
单因素方差分析通常的原假设是
备择假设并不是“所有均值都不同”。它更弱一些:至少有一个组的均值与另一个组的均值不同。
这一点很重要,因为 ANOVA 是一种总体检验。显著结果表示某处存在差异的证据,但它并不会指出究竟是哪些组不同。这通常需要后续比较来完成。
为什么 ANOVA 用方差来比较均值
这个名字一开始听起来有些反直觉。如果 ANOVA 关注的是均值,为什么却使用方差?
因为方差提供了一种清晰的方法来衡量两类离散程度:
- 各组均值围绕总体均值的离散程度。
- 各个观测值围绕本组均值的离散程度。
如果第一种离散程度远大于第二种,那么这些组看起来就比通常的组内波动所能造成的情况更分离。
什么时候适合使用单因素方差分析
当一个分类因素把观测值分成若干组,而你想比较一个定量响应变量在这些组之间的均值时,就会使用单因素方差分析。
例如,比较不同教学方法下的平均考试成绩、不同肥料下的平均作物产量,或不同处理条件下的平均反应时间。
对于经典的单因素方差分析,主要假设包括:
- 观测值相互独立。
- 响应变量是在定量尺度上测量的。
- 各组方差大致相近。
- 模型与数据形状不存在严重不匹配,尤其是在小样本时。
在很多情形下,ANOVA 仍然具有相当的稳健性,尤其是在各组样本量平衡且样本量适中的情况下,但这取决于研究设计。如果数据是配对的、在同一受试者身上重复测量的,或者各组方差差异非常大,那么普通的单因素方差分析可能就不是合适的工具。
单因素方差分析示例
假设一位老师想用测验分数比较三种学习方法:
- 方法 A:、、
- 方法 B:、、
- 方法 C:、、
各组均值为
全部 个分数的总均值为
现在把总变异拆分成两部分。
第 1 步:组间变异
每组都有 个观测值,因此组间平方和为
当 组时,组间自由度为 ,所以
第 2 步:组内变异
在每一组内部,分数都只比组均值高或低 分:
总观测数为 ,因此组内自由度为 ,所以
第 3 步:计算 统计量
现在计算
这么大的 值意味着,与组内变异相比,各组均值之间相距很远。在通常的单因素方差分析假设下,这为拒绝“三个总体均值都相等”的原假设提供了强有力的证据。
从实际角度看,结论很简单:这三种学习方法之间的差异太大,不能仅仅归因于普通的组内离散波动。
ANOVA 不能告诉你什么
ANOVA 不会告诉你究竟是哪一对组存在差异。在总体检验显著之后,通常还需要做事后比较或计划对比。
它也不会告诉你这种效应在实际意义上是否重要。统计上可检测到的差异,在真实情境中仍然可能小到没有实际价值。
如果研究不是随机分配的,ANOVA 也不能证明分组变量导致了这种差异。它只能检验你收集到的数据中,各组均值看起来是否不同。
ANOVA 的常见错误
一个常见错误是认为 ANOVA 主要是在检验各组方差是否相等。标准用法中,ANOVA 比较的是均值。方差之所以出现,是因为它是衡量“信号与噪声”的工具。
另一个错误是在涉及多个组时,不做一次总体 ANOVA,而是进行许多次单独的 检验。除非对比较进行了仔细调整,否则这会增加假阳性的风险。
第三个错误是在 ANOVA 显著后就停止分析,并声称已经知道究竟是哪一组最好。总体检验本身并不能回答这个问题。
ANOVA 用在哪里
ANOVA 常见于实验研究、产品测试、教育、生物学、农业和社会科学。只要你需要对多个组的均值差异进行一次有依据的统一检验,它就很有用。
当真正的问题是比较性的——这些处理、方法或条件是否会产生可测量的平均结果差异——ANOVA 尤其有帮助。
自己试一试
保持同一个例子不变,把方法 B 改成 、、。重新计算 、 和最终的 统计量。这个小改动能直观展示核心思想:随着组内噪声增大,支持真实均值差异的证据会变弱。