贝叶斯定理告诉你,在看到新证据后如何更新一个概率。如果 P(B)>0,那么
P(A∣B)=P(B)P(B∣A)P(A)
它回答的是一个非常具体的问题:在事件 B 已经发生之后,事件 A 现在有多大可能发生?这个思想在医学检测、垃圾邮件过滤,以及任何“如果不考虑事件原本有多常见,证据就可能误导你”的场景中都很重要。
用通俗语言理解贝叶斯定理公式
贝叶斯定理结合了三个要素:
- 从看到证据之前的判断开始,即 P(A)
- 看证据与该事件有多一致,即 P(B∣A)
- 再根据证据本身总体上有多常见进行调整,即 P(B)
最终得到的 P(A∣B),叫作后验概率。
公式中每一部分的含义
在
P(A∣B)=P(B)P(B∣A)P(A)
中,
P(A) 是先验概率。它表示在使用新证据之前,你对 A 的初始概率判断。
P(B∣A) 是似然。它表示如果 A 为真,那么证据 B 出现的可能性有多大。
P(B) 是证据本身的总体概率。这个量很重要,因为有些证据即使在 A 为假时也很常见。
P(A∣B) 是后验概率。它表示在得知 B 已经发生后,A 的更新概率。
为什么分母会改变答案
贝叶斯定理并不只是奖励“支持你假设”的证据。它还会追问:这种证据本身是不是本来就经常出现?
这就是为什么分母 P(B) 很重要。如果这种证据在很多情况下都很常见,那么看到它并不应该让你的判断改变太多。相反,如果这种证据除了在 A 为真时几乎很少出现,它就会大幅改变你的判断。
从条件概率出发的简短证明
在需要的地方,假设 P(B)>0 且 P(A)>0。根据条件概率的定义,
P(A∣B)=P(B)P(A∩B)
并且
P(B∣A)=P(A)P(A∩B)
由第二个等式可得,
P(A∩B)=P(B∣A)P(A)
把它代入第一个等式:
P(A∣B)=P(B)P(B∣A)P(A)
这就是贝叶斯定理。
贝叶斯定理例题:医学检测呈阳性
假设某种疾病在一个人群中的患病率为 1%。某项检测的灵敏度为 99%,假阳性率为 5%。
设
- D = 这个人患有该疾病
- + = 检测结果为阳性
那么
P(D)=0.01
P(+∣D)=0.99
P(+∣Dc)=0.05
我们要求的是 P(D∣+),也就是在检测结果为阳性的条件下,这个人实际上患病的概率。
先求阳性结果的总体概率。检测为阳性有两种情况:一种是这个人确实患病且检测为阳性,另一种是这个人没有患病但仍然检测为阳性。
P(+)=P(+∣D)P(D)+P(+∣Dc)P(Dc)
P(+)=(0.99)(0.01)+(0.05)(0.99)=0.0594
现在应用贝叶斯定理:
P(D∣+)=P(+)P(+∣D)P(D)=0.0594(0.99)(0.01)
P(D∣+)=0.05940.0099=61≈0.167
所以,在一次检测呈阳性之后,真正患病的概率大约是 16.7%,而不是 99%。这个检测本身很强,但由于疾病很罕见,大多数阳性结果仍然来自人数更多的未患病人群。
这正是很多人容易忽略的核心结论:即使检测很强,如果疾病本来就很少见,后验概率也可能并没有直觉中那么高。
贝叶斯定理的一个实用二分类形式
如果证据可能来自两个互补情况 A 和 Ac,那么
P(B)=P(B∣A)P(A)+P(B∣Ac)P(Ac)
把它代入贝叶斯定理,就得到
P(A∣B)=P(B∣A)P(A)+P(B∣Ac)P(Ac)P(B∣A)P(A)
在二分类问题中,这个形式通常最实用。
贝叶斯定理中的常见错误
混淆 P(A∣B) 和 P(B∣A)
这两个概率通常并不相等。某种疾病存在时,检测呈阳性的概率可以很高;但在检测呈阳性之后,真正患病的概率仍然可能不高。
忽略基础概率
先验概率 P(A) 很重要。如果 A 非常罕见,那么即使证据很强,后验概率也未必会像直觉预期的那样高。
把 P(B) 算得过于狭窄
分母并不是一个可有可无的剩余项。它是证据出现的总概率,通常需要把多个情况的贡献加起来。
在 P(B)=0 时使用公式
这种形式的贝叶斯定理要求 P(B)>0。如果证据的概率为 0,那么基本公式下的条件概率 P(A∣B) 就没有定义。
贝叶斯定理的应用场景
贝叶斯定理出现在医学检测、垃圾邮件过滤、可靠性分析、机器学习和科学推断中。在每一种场景里,核心思想都一样:当新信息到来时,更新原有判断。
当人们容易对证据反应过度、却没有先问“这个事件本来有多常见”时,贝叶斯定理尤其有用。
试做一道类似的贝叶斯定理题
保持同样的医学检测条件,但把患病率从 1% 改成 10%。灵敏度和假阳性率保持不变,但后验概率会发生很大变化。亲自算一遍这个版本,是快速体会先验概率为什么重要的好方法。