T检验——类型、公式与适用场景

T检验可以帮助你判断：一个样本均值，或两个样本均值之差，是否大到不能仅用随机波动来解释。当结果变量是数值型，且总体标准差未知时，就可以使用它；而这正是现实中最常见的情况。

最关键的条件是，检验方法必须与数据的研究设计相匹配。T检验适用于关于均值的问题，不适用于分类计数；如果样本非常小，并且存在明显偏态或离群值，就需要格外谨慎。

T检验衡量的是什么

基本思想始终相同：

t = \frac{\text{observed difference}}{\text{estimated standard error}}

当均值差较大时，这个统计量会变大；当数据噪声较大或样本较小时，这个统计量会变小。

在原假设成立且条件基本满足时，这个统计量服从 $t$ 分布，而不是正态的 $z$ 分布。 $t$ 分布的尾部更厚，尤其是在小样本时，因此在判断结果是否显著时会更保守。

当你只有一个样本，并且想把它的均值与某个基准值 $\mu_0$ 进行比较时，使用这种检验。

t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}

例子：将某一样本中的平均包装重量与目标值 $100$ 克进行比较。

当你想比较两个独立组的均值时，使用这种检验，例如比较采用不同教学方法的两个班级。

如果你没有充分理由假设两个总体方差相等，那么 Welch t 检验通常是更稳妥的默认选择：

t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

Welch 检验的自由度并不只是简单的 $n_1 + n_2 - 2$ ，所以这部分通常由软件来处理。

这种检验适用于前后测数据或配对样本。检验不是分别对两列原始数据进行，而是对每一对数据的差值进行。

t = \frac{\bar{d} - \mu_{d,0}}{s_d / \sqrt{n}}

在很多配对问题中，原假设中的取值是 $\mu_{d,0} = 0$ ，表示平均变化为零。

当以下条件大致都成立时，T检验通常是合适的：

如果总体标准差已知且精确无误，那么教材中的 $z$ 检验会是更直接的替代方法。但在实际中， $\sigma$ 通常未知，所以 T检验更常见。

假设某个包装流程的平均重量应为 $100$ 克。你随机抽取了 $25$ 个包装，得到

\bar{x} = 102, \quad s = 4

你想知道真实均值是否与 $100$ 克不同。

因为这里是一个样本与目标值进行比较，所以正确的方法是单样本 t 检验。

先写出假设：

H_0: \mu = 100

H_1: \mu \ne 100

标准误为

\frac{s}{\sqrt{n}} = \frac{4}{\sqrt{25}} = \frac{4}{5} = 0.8

现在计算检验统计量：

t = \frac{102 - 100}{0.8} = 2.5

自由度为

df = n - 1 = 24

对于自由度 $df = 24$ 的双侧检验， $t = 2.5$ 对应的 p 值小于 $0.05$ 。这意味着结果在 $5\%$ 显著性水平下具有统计显著性，因此拒绝 $H_0$ 。

结合具体情境来看，这个样本提供了证据，说明该流程的总体均值不同于 $100$ 克。这个结论依赖于样本之间基本独立，且没有被离群值严重扭曲。

一个常见错误是选错检验版本。如果同一批人、机器或实验单位被测量了两次，那么数据就是配对的，此时独立双样本 t 检验并不合适。

另一个错误是把“统计上不显著”理解成“没有差异”。通常它真正表示的是：样本没有提供足够强的证据来反对原假设。

第三个错误是跳过数据检查。如果样本极小且存在一个极端离群值，公式仍然会算出一个数，但结论可能并不可靠。

T检验常用于实验研究、质量控制、医学、心理学、教育，以及结果变量为数值型的 A/B 类比较。它是统计推断中的经典入门方法之一，因为它把均值、变异性、不确定性和决策整合在同一种方法中。

把上面的例子改成样本均值为 $101$ 而不是 $102$ ，同时保持 $n = 25$ 和 $s = 4$ 不变。重新计算 t 统计量，并判断在 $5\%$ 水平下证据是否仍然足够强。这是一个很好的下一步练习，可以帮助你观察当样本均值更接近原假设取值时，结论会如何变化。

上传你的问题，几秒钟内获得经过验证的分步解答。