T检验可以帮助你判断:一个样本均值,或两个样本均值之差,是否大到不能仅用随机波动来解释。当结果变量是数值型,且总体标准差未知时,就可以使用它;而这正是现实中最常见的情况。

最关键的条件是,检验方法必须与数据的研究设计相匹配。T检验适用于关于均值的问题,不适用于分类计数;如果样本非常小,并且存在明显偏态或离群值,就需要格外谨慎。

T检验衡量的是什么

基本思想始终相同:

t=observed differenceestimated standard errort = \frac{\text{observed difference}}{\text{estimated standard error}}

当均值差较大时,这个统计量会变大;当数据噪声较大或样本较小时,这个统计量会变小。

在原假设成立且条件基本满足时,这个统计量服从 tt 分布,而不是正态的 zz 分布。tt 分布的尾部更厚,尤其是在小样本时,因此在判断结果是否显著时会更保守。

应该使用哪一种 T检验

单样本 t 检验

当你只有一个样本,并且想把它的均值与某个基准值 μ0\mu_0 进行比较时,使用这种检验。

t=xˉμ0s/nt = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}

例子:将某一样本中的平均包装重量与目标值 100100 克进行比较。

双样本 t 检验

当你想比较两个独立组的均值时,使用这种检验,例如比较采用不同教学方法的两个班级。

如果你没有充分理由假设两个总体方差相等,那么 Welch t 检验通常是更稳妥的默认选择:

t=xˉ1xˉ2s12n1+s22n2t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

Welch 检验的自由度并不只是简单的 n1+n22n_1 + n_2 - 2,所以这部分通常由软件来处理。

配对 t 检验

这种检验适用于前后测数据或配对样本。检验不是分别对两列原始数据进行,而是对每一对数据的差值进行。

t=dˉμd,0sd/nt = \frac{\bar{d} - \mu_{d,0}}{s_d / \sqrt{n}}

在很多配对问题中,原假设中的取值是 μd,0=0\mu_{d,0} = 0,表示平均变化为零。

什么时候适合使用 T检验

当以下条件大致都成立时,T检验通常是合适的:

  1. 结果变量是数值型。
  2. 在所选研究设计下,各观测值相互独立;如果你本来就是在使用配对设计,则例外。
  3. 问题关注的是均值或均值差。
  4. 样本不能小到又受到离群值或强偏态严重影响,以至于均值和标准差失去代表性。

如果总体标准差已知且精确无误,那么教材中的 zz 检验会是更直接的替代方法。但在实际中,σ\sigma 通常未知,所以 T检验更常见。

例题:单样本 t 检验

假设某个包装流程的平均重量应为 100100 克。你随机抽取了 2525 个包装,得到

xˉ=102,s=4\bar{x} = 102, \quad s = 4

你想知道真实均值是否与 100100 克不同。

因为这里是一个样本与目标值进行比较,所以正确的方法是单样本 t 检验。

先写出假设:

H0:μ=100H_0: \mu = 100 H1:μ100H_1: \mu \ne 100

标准误为

sn=425=45=0.8\frac{s}{\sqrt{n}} = \frac{4}{\sqrt{25}} = \frac{4}{5} = 0.8

现在计算检验统计量:

t=1021000.8=2.5t = \frac{102 - 100}{0.8} = 2.5

自由度为

df=n1=24df = n - 1 = 24

对于自由度 df=24df = 24 的双侧检验,t=2.5t = 2.5 对应的 p 值小于 0.050.05。这意味着结果在 5%5\% 显著性水平下具有统计显著性,因此拒绝 H0H_0

结合具体情境来看,这个样本提供了证据,说明该流程的总体均值不同于 100100 克。这个结论依赖于样本之间基本独立,且没有被离群值严重扭曲。

T检验中的常见错误

一个常见错误是选错检验版本。如果同一批人、机器或实验单位被测量了两次,那么数据就是配对的,此时独立双样本 t 检验并不合适。

另一个错误是把“统计上不显著”理解成“没有差异”。通常它真正表示的是:样本没有提供足够强的证据来反对原假设。

第三个错误是跳过数据检查。如果样本极小且存在一个极端离群值,公式仍然会算出一个数,但结论可能并不可靠。

T检验用在哪些地方

T检验常用于实验研究、质量控制、医学、心理学、教育,以及结果变量为数值型的 A/B 类比较。它是统计推断中的经典入门方法之一,因为它把均值、变异性、不确定性和决策整合在同一种方法中。

试着做一道类似题

把上面的例子改成样本均值为 101101 而不是 102102,同时保持 n=25n = 25s=4s = 4 不变。重新计算 t 统计量,并判断在 5%5\% 水平下证据是否仍然足够强。这是一个很好的下一步练习,可以帮助你观察当样本均值更接近原假设取值时,结论会如何变化。

需要解题帮助?

上传你的问题,几秒钟内获得经过验证的分步解答。

打开 GPAI Solver →