T检验可以帮助你判断:一个样本均值,或两个样本均值之差,是否大到不能仅用随机波动来解释。当结果变量是数值型,且总体标准差未知时,就可以使用它;而这正是现实中最常见的情况。
最关键的条件是,检验方法必须与数据的研究设计相匹配。T检验适用于关于均值的问题,不适用于分类计数;如果样本非常小,并且存在明显偏态或离群值,就需要格外谨慎。
T检验衡量的是什么
基本思想始终相同:
当均值差较大时,这个统计量会变大;当数据噪声较大或样本较小时,这个统计量会变小。
在原假设成立且条件基本满足时,这个统计量服从 分布,而不是正态的 分布。 分布的尾部更厚,尤其是在小样本时,因此在判断结果是否显著时会更保守。
应该使用哪一种 T检验
单样本 t 检验
当你只有一个样本,并且想把它的均值与某个基准值 进行比较时,使用这种检验。
例子:将某一样本中的平均包装重量与目标值 克进行比较。
双样本 t 检验
当你想比较两个独立组的均值时,使用这种检验,例如比较采用不同教学方法的两个班级。
如果你没有充分理由假设两个总体方差相等,那么 Welch t 检验通常是更稳妥的默认选择:
Welch 检验的自由度并不只是简单的 ,所以这部分通常由软件来处理。
配对 t 检验
这种检验适用于前后测数据或配对样本。检验不是分别对两列原始数据进行,而是对每一对数据的差值进行。
在很多配对问题中,原假设中的取值是 ,表示平均变化为零。
什么时候适合使用 T检验
当以下条件大致都成立时,T检验通常是合适的:
- 结果变量是数值型。
- 在所选研究设计下,各观测值相互独立;如果你本来就是在使用配对设计,则例外。
- 问题关注的是均值或均值差。
- 样本不能小到又受到离群值或强偏态严重影响,以至于均值和标准差失去代表性。
如果总体标准差已知且精确无误,那么教材中的 检验会是更直接的替代方法。但在实际中, 通常未知,所以 T检验更常见。
例题:单样本 t 检验
假设某个包装流程的平均重量应为 克。你随机抽取了 个包装,得到
你想知道真实均值是否与 克不同。
因为这里是一个样本与目标值进行比较,所以正确的方法是单样本 t 检验。
先写出假设:
标准误为
现在计算检验统计量:
自由度为
对于自由度 的双侧检验, 对应的 p 值小于 。这意味着结果在 显著性水平下具有统计显著性,因此拒绝 。
结合具体情境来看,这个样本提供了证据,说明该流程的总体均值不同于 克。这个结论依赖于样本之间基本独立,且没有被离群值严重扭曲。
T检验中的常见错误
一个常见错误是选错检验版本。如果同一批人、机器或实验单位被测量了两次,那么数据就是配对的,此时独立双样本 t 检验并不合适。
另一个错误是把“统计上不显著”理解成“没有差异”。通常它真正表示的是:样本没有提供足够强的证据来反对原假设。
第三个错误是跳过数据检查。如果样本极小且存在一个极端离群值,公式仍然会算出一个数,但结论可能并不可靠。
T检验用在哪些地方
T检验常用于实验研究、质量控制、医学、心理学、教育,以及结果变量为数值型的 A/B 类比较。它是统计推断中的经典入门方法之一,因为它把均值、变异性、不确定性和决策整合在同一种方法中。
试着做一道类似题
把上面的例子改成样本均值为 而不是 ,同时保持 和 不变。重新计算 t 统计量,并判断在 水平下证据是否仍然足够强。这是一个很好的下一步练习,可以帮助你观察当样本均值更接近原假设取值时,结论会如何变化。