ANOVA——方差分析详解

ANOVA 是 analysis of variance（方差分析）的缩写，用来检验多个组之间的平均结果是否存在差异。在单因素方差分析中，你要比较组均值之间的变异与组内变异，这会得到 $F$ 统计量。

当你有一个分类分组变量、一个定量响应变量，并且希望做一次总体检验，而不是进行许多次单独的 $t$ 检验时，它通常就是合适的工具。如果组间变异相对于组内变异较大，这就表明并非所有总体均值都相等。

对于经典的单因素方差分析，检验统计量为

F = \frac{MS_B}{MS_W}

其中， $MS_B$ 是组间均方， $MS_W$ 是组内均方。 $F$ 越大，说明各组均值之间的分离程度越高，超出了仅由普通组内随机波动所能解释的范围。

ANOVA 检验什么

单因素方差分析通常的原假设是

H_0: \mu_1 = \mu_2 = \cdots = \mu_k

备择假设并不是“所有均值都不同”。它更弱一些：至少有一个组的均值与另一个组的均值不同。

这一点很重要，因为 ANOVA 是一种总体检验。显著结果表示某处存在差异的证据，但它并不会指出究竟是哪些组不同。这通常需要后续比较来完成。

为什么 ANOVA 用方差来比较均值

这个名字一开始听起来有些反直觉。如果 ANOVA 关注的是均值，为什么却使用方差？

因为方差提供了一种清晰的方法来衡量两类离散程度：

各组均值围绕总体均值的离散程度。
各个观测值围绕本组均值的离散程度。

如果第一种离散程度远大于第二种，那么这些组看起来就比通常的组内波动所能造成的情况更分离。

什么时候适合使用单因素方差分析

当一个分类因素把观测值分成若干组，而你想比较一个定量响应变量在这些组之间的均值时，就会使用单因素方差分析。

例如，比较不同教学方法下的平均考试成绩、不同肥料下的平均作物产量，或不同处理条件下的平均反应时间。

对于经典的单因素方差分析，主要假设包括：

观测值相互独立。
响应变量是在定量尺度上测量的。
各组方差大致相近。
模型与数据形状不存在严重不匹配，尤其是在小样本时。

在很多情形下，ANOVA 仍然具有相当的稳健性，尤其是在各组样本量平衡且样本量适中的情况下，但这取决于研究设计。如果数据是配对的、在同一受试者身上重复测量的，或者各组方差差异非常大，那么普通的单因素方差分析可能就不是合适的工具。

单因素方差分析示例

假设一位老师想用测验分数比较三种学习方法：

方法 A： $72$ 、 $74$ 、 $76$
方法 B： $78$ 、 $80$ 、 $82$
方法 C： $84$ 、 $86$ 、 $88$

各组均值为

\bar{x}_A = 74, \qquad \bar{x}_B = 80, \qquad \bar{x}_C = 86

全部 $9$ 个分数的总均值为

\bar{x} = 80

现在把总变异拆分成两部分。

第 1 步：组间变异

每组都有 $3$ 个观测值，因此组间平方和为

SS_B = 3(74-80)^2 + 3(80-80)^2 + 3(86-80)^2

SS_B = 3(36) + 0 + 3(36) = 216

当 $k=3$ 组时，组间自由度为 $k-1=2$ ，所以

MS_B = \frac{SS_B}{k-1} = \frac{216}{2} = 108

第 2 步：组内变异

在每一组内部，分数都只比组均值高或低 $2$ 分：

SS_W = (4+0+4) + (4+0+4) + (4+0+4) = 24

总观测数为 $N=9$ ，因此组内自由度为 $N-k=6$ ，所以

MS_W = \frac{SS_W}{N-k} = \frac{24}{6} = 4

第 3 步：计算 $F$ 统计量

现在计算

F = \frac{MS_B}{MS_W} = \frac{108}{4} = 27

这么大的 $F$ 值意味着，与组内变异相比，各组均值之间相距很远。在通常的单因素方差分析假设下，这为拒绝“三个总体均值都相等”的原假设提供了强有力的证据。

从实际角度看，结论很简单：这三种学习方法之间的差异太大，不能仅仅归因于普通的组内离散波动。

ANOVA 不能告诉你什么

ANOVA 不会告诉你究竟是哪一对组存在差异。在总体检验显著之后，通常还需要做事后比较或计划对比。

它也不会告诉你这种效应在实际意义上是否重要。统计上可检测到的差异，在真实情境中仍然可能小到没有实际价值。

如果研究不是随机分配的，ANOVA 也不能证明分组变量导致了这种差异。它只能检验你收集到的数据中，各组均值看起来是否不同。

ANOVA 的常见错误

一个常见错误是认为 ANOVA 主要是在检验各组方差是否相等。标准用法中，ANOVA 比较的是均值。方差之所以出现，是因为它是衡量“信号与噪声”的工具。

另一个错误是在涉及多个组时，不做一次总体 ANOVA，而是进行许多次单独的 $t$ 检验。除非对比较进行了仔细调整，否则这会增加假阳性的风险。

第三个错误是在 ANOVA 显著后就停止分析，并声称已经知道究竟是哪一组最好。总体检验本身并不能回答这个问题。

ANOVA 用在哪里

ANOVA 常见于实验研究、产品测试、教育、生物学、农业和社会科学。只要你需要对多个组的均值差异进行一次有依据的统一检验，它就很有用。

当真正的问题是比较性的——这些处理、方法或条件是否会产生可测量的平均结果差异——ANOVA 尤其有帮助。

自己试一试

保持同一个例子不变，把方法 B 改成 $79$ 、 $80$ 、 $81$ 。重新计算 $SS_W$ 、 $MS_W$ 和最终的 $F$ 统计量。这个小改动能直观展示核心思想：随着组内噪声增大，支持真实均值差异的证据会变弱。

需要解题帮助？

上传你的问题，几秒钟内获得经过验证的分步解答。

打开 GPAI Solver →