ANOVA 是 analysis of variance(方差分析)的缩写,用来检验多个组之间的平均结果是否存在差异。在单因素方差分析中,你要比较组均值之间的变异与组内变异,这会得到 FF 统计量。

当你有一个分类分组变量、一个定量响应变量,并且希望做一次总体检验,而不是进行许多次单独的 tt 检验时,它通常就是合适的工具。如果组间变异相对于组内变异较大,这就表明并非所有总体均值都相等。

对于经典的单因素方差分析,检验统计量为

F=MSBMSWF = \frac{MS_B}{MS_W}

其中,MSBMS_B 是组间均方,MSWMS_W 是组内均方。FF 越大,说明各组均值之间的分离程度越高,超出了仅由普通组内随机波动所能解释的范围。

ANOVA 检验什么

单因素方差分析通常的原假设是

H0:μ1=μ2==μkH_0: \mu_1 = \mu_2 = \cdots = \mu_k

备择假设并不是“所有均值都不同”。它更弱一些:至少有一个组的均值与另一个组的均值不同。

这一点很重要,因为 ANOVA 是一种总体检验。显著结果表示某处存在差异的证据,但它并不会指出究竟是哪些组不同。这通常需要后续比较来完成。

为什么 ANOVA 用方差来比较均值

这个名字一开始听起来有些反直觉。如果 ANOVA 关注的是均值,为什么却使用方差?

因为方差提供了一种清晰的方法来衡量两类离散程度:

  1. 各组均值围绕总体均值的离散程度。
  2. 各个观测值围绕本组均值的离散程度。

如果第一种离散程度远大于第二种,那么这些组看起来就比通常的组内波动所能造成的情况更分离。

什么时候适合使用单因素方差分析

当一个分类因素把观测值分成若干组,而你想比较一个定量响应变量在这些组之间的均值时,就会使用单因素方差分析。

例如,比较不同教学方法下的平均考试成绩、不同肥料下的平均作物产量,或不同处理条件下的平均反应时间。

对于经典的单因素方差分析,主要假设包括:

  1. 观测值相互独立。
  2. 响应变量是在定量尺度上测量的。
  3. 各组方差大致相近。
  4. 模型与数据形状不存在严重不匹配,尤其是在小样本时。

在很多情形下,ANOVA 仍然具有相当的稳健性,尤其是在各组样本量平衡且样本量适中的情况下,但这取决于研究设计。如果数据是配对的、在同一受试者身上重复测量的,或者各组方差差异非常大,那么普通的单因素方差分析可能就不是合适的工具。

单因素方差分析示例

假设一位老师想用测验分数比较三种学习方法:

  1. 方法 A:727274747676
  2. 方法 B:787880808282
  3. 方法 C:848486868888

各组均值为

xˉA=74,xˉB=80,xˉC=86\bar{x}_A = 74, \qquad \bar{x}_B = 80, \qquad \bar{x}_C = 86

全部 99 个分数的总均值为

xˉ=80\bar{x} = 80

现在把总变异拆分成两部分。

第 1 步:组间变异

每组都有 33 个观测值,因此组间平方和为

SSB=3(7480)2+3(8080)2+3(8680)2SS_B = 3(74-80)^2 + 3(80-80)^2 + 3(86-80)^2 SSB=3(36)+0+3(36)=216SS_B = 3(36) + 0 + 3(36) = 216

k=3k=3 组时,组间自由度为 k1=2k-1=2,所以

MSB=SSBk1=2162=108MS_B = \frac{SS_B}{k-1} = \frac{216}{2} = 108

第 2 步:组内变异

在每一组内部,分数都只比组均值高或低 22 分:

SSW=(4+0+4)+(4+0+4)+(4+0+4)=24SS_W = (4+0+4) + (4+0+4) + (4+0+4) = 24

总观测数为 N=9N=9,因此组内自由度为 Nk=6N-k=6,所以

MSW=SSWNk=246=4MS_W = \frac{SS_W}{N-k} = \frac{24}{6} = 4

第 3 步:计算 FF 统计量

现在计算

F=MSBMSW=1084=27F = \frac{MS_B}{MS_W} = \frac{108}{4} = 27

这么大的 FF 值意味着,与组内变异相比,各组均值之间相距很远。在通常的单因素方差分析假设下,这为拒绝“三个总体均值都相等”的原假设提供了强有力的证据。

从实际角度看,结论很简单:这三种学习方法之间的差异太大,不能仅仅归因于普通的组内离散波动。

ANOVA 不能告诉你什么

ANOVA 不会告诉你究竟是哪一对组存在差异。在总体检验显著之后,通常还需要做事后比较或计划对比。

它也不会告诉你这种效应在实际意义上是否重要。统计上可检测到的差异,在真实情境中仍然可能小到没有实际价值。

如果研究不是随机分配的,ANOVA 也不能证明分组变量导致了这种差异。它只能检验你收集到的数据中,各组均值看起来是否不同。

ANOVA 的常见错误

一个常见错误是认为 ANOVA 主要是在检验各组方差是否相等。标准用法中,ANOVA 比较的是均值。方差之所以出现,是因为它是衡量“信号与噪声”的工具。

另一个错误是在涉及多个组时,不做一次总体 ANOVA,而是进行许多次单独的 tt 检验。除非对比较进行了仔细调整,否则这会增加假阳性的风险。

第三个错误是在 ANOVA 显著后就停止分析,并声称已经知道究竟是哪一组最好。总体检验本身并不能回答这个问题。

ANOVA 用在哪里

ANOVA 常见于实验研究、产品测试、教育、生物学、农业和社会科学。只要你需要对多个组的均值差异进行一次有依据的统一检验,它就很有用。

当真正的问题是比较性的——这些处理、方法或条件是否会产生可测量的平均结果差异——ANOVA 尤其有帮助。

自己试一试

保持同一个例子不变,把方法 B 改成 797980808181。重新计算 SSWSS_WMSWMS_W 和最终的 FF 统计量。这个小改动能直观展示核心思想:随着组内噪声增大,支持真实均值差异的证据会变弱。

需要解题帮助?

上传你的问题,几秒钟内获得经过验证的分步解答。

打开 GPAI Solver →