假设检验是一种判断样本数据是否与某个初始主张明显不一致的方法。这个初始主张叫做原假设,记作 。
这种方法并不会证明 为真或为假。它问的是一个更具体的问题:如果 为真,那么像这样极端的数据是否罕见到足以让我们怀疑它?
核心思想
每个假设检验都有两个相互竞争的陈述:
- 原假设 ,也就是默认要检验的主张。
- 备择假设 或 ,也就是当数据对 提供了足够反证时你会支持的主张。
然后你要在看结果之前先选定显著性水平 ,通常取 。它表示在拒绝 之前,你要求证据达到的门槛。
可能有两种结果:
- 拒绝 :数据与原假设模型足够不一致。
- 不拒绝 :数据还不足以排除原假设模型。
“不拒绝”并不等于“接受其为真”。它只表示样本没有提供足够强的证据去反对 。
常见步骤
通常的流程是:
- 清楚写出 和 。
- 选择 ,并选用与数据和假设条件相匹配的检验方法。
- 根据样本计算检验统计量。
- 把该统计量转化为 值,或将它与临界值比较。
- 作出决策,并结合具体背景解释结果。
检验统计量取决于具体情境。 检验、 检验、卡方检验等都属于假设检验。假设检验并不存在一个统一适用的公式。
值的含义
值是指:在假设 为真且检验前提成立的条件下,得到至少与当前观测结果同样极端结果的概率。
值小,表示这些数据在 下比较罕见。这就是为什么较小的 值会被视为反对原假设的证据。
但它并不表示:
- 为假的概率。
- 你的结果是“随机碰巧发生”的概率(按日常模糊说法理解)。
- 效应的大小或重要性。
假设检验的主要类型
有两种常见的分类方式。
按方向分类
单尾检验只关注一个方向上的变化。
- 右尾检验:比原假设主张更大的值支持 。
- 左尾检验:比原假设主张更小的值支持 。
双尾检验关注任一方向上的差异。如果 是“不等于”,那么拒绝域会分布在两侧尾部。
按数据情境分类
- 检验用于某些总体均值检验情形,前提是总体标准差已知,或采用了合理的大样本近似。
- 检验常用于总体标准差未知且条件基本合理时的均值检验。
- 卡方检验用于分类计数数据。
该选哪种检验,取决于变量类型、样本设计和前提假设。先选公式、后想问题,是一种很常见的错误。
例题讲解
假设一台灌装机理论上每瓶平均应灌装 mL。质量控制团队抽取了 瓶样本,得到样本均值为 mL。
在这个例子中,假设总体标准差已知为 mL,并且抽样条件支持使用单样本 检验。
建立假设:
这是一个左尾检验,因为担心的是灌装不足。
标准误为
所以检验统计量为
如果左尾 检验取 ,临界值约为 。由于 ,结果落入拒绝域。
因此,在 显著性水平下,应拒绝 。结合背景来看,样本提供了机器平均灌装不足的证据。
这个结论依赖于检验前提。如果前提条件不合理,那么即使计算过程正确,结论也可能不可靠。
第一类错误与第二类错误
假设检验总是伴随着出错风险。
第一类错误是指在 其实为真时却拒绝了它。它的概率由 控制。
第二类错误是指在 其实为真时却没有拒绝 。它的概率通常记作 。
降低 会减少“误报”,但如果其他条件不变,也会让真实效应更难被检出。这种权衡也是样本量为什么重要的原因之一。
常见错误
一个常见错误是把“不显著”说成“证明没有效应”。通常它只说明数据证据还不够强,无法检出某种效应。
另一个错误是把统计显著性当成实际重要性。在非常大的样本中,一个极小的效应也可能达到统计显著。
人们还常常在忽视独立性、分布形状、方差或数据类型等前提时误用检验。一个看起来很“漂亮”的 值,并不能挽救一个不匹配的检验。
假设检验的应用场景
假设检验广泛用于科学研究、制造业、医学、问卷调查、A/B 测试和政策分析。目标通常是一样的:判断样本是否提供了足够证据去质疑某个默认主张。
在实际应用中,好的检验不只是会算。它还要求原假设设定合理、研究设计站得住脚,并且解释方式要符合检验真正能说明的内容。
自己试一试
仍然使用同一个灌装机例子,但把样本均值改成 mL。重新计算检验统计量,看看在 时结论是否会改变。这是一个快速观察证据如何随着样本结果更接近原假设值而变强或变弱的方法。