베이즈 정리는 새로운 증거를 본 뒤 확률을 어떻게 갱신하는지 알려줍니다. P(B)>0P(B) > 0이면,

P(AB)=P(BA)P(A)P(B)P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)}

이 식은 아주 구체적인 질문에 답합니다. 사건 BB가 이미 일어났을 때, 이제 사건 AA가 일어났을 가능성은 얼마나 될까요? 이 아이디어는 의료 검사, 스팸 필터링, 그리고 처음부터 그 사건이 얼마나 흔했는지도 함께 보지 않으면 증거가 오해를 부를 수 있는 모든 상황에서 중요합니다.

쉬운 말로 보는 베이즈 정리 공식

베이즈 정리는 세 가지 요소를 결합합니다.

  • 증거를 보기 전에 믿고 있던 값, P(A)P(A)에서 시작합니다
  • 그 증거가 해당 사건과 얼마나 잘 맞는지, P(BA)P(B \mid A)를 봅니다
  • 그 증거가 전체적으로 얼마나 흔한지, P(B)P(B)로 조정합니다

결과인 P(AB)P(A \mid B)사후확률이라고 합니다.

공식의 각 부분이 뜻하는 것

다음 식에서

P(AB)=P(BA)P(A)P(B)P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)}

P(A)P(A)사전확률입니다. 새로운 증거를 사용하기 전, AA에 대해 가지고 있던 출발 확률입니다.

P(BA)P(B \mid A)가능도입니다. AA가 참일 때 증거 BB가 나타날 가능성이 얼마나 되는지를 말합니다.

P(B)P(B)는 증거 자체의 전체 확률입니다. 어떤 증거는 AA가 거짓이어도 흔하게 나타날 수 있기 때문에 이 항이 중요합니다.

P(AB)P(A \mid B)사후확률입니다. BB가 일어났다는 사실을 알게 된 뒤 갱신된 AA의 확률입니다.

분모가 답을 바꾸는 이유

베이즈 정리는 단지 내 가설에 잘 맞는 증거라고 해서 무조건 높게 평가하지 않습니다. 그와 같은 증거가 원래 전반적으로도 자주 나타나는지를 함께 묻습니다.

그래서 분모 P(B)P(B)가 중요합니다. 그 증거가 많은 경우에 흔하게 나타난다면, 그것을 봤다고 해서 믿음이 크게 바뀌면 안 됩니다. 반대로 AA가 참일 때를 제외하면 드문 증거라면, 믿음이 크게 바뀔 수 있습니다.

조건부확률에서 바로 나오는 짧은 증명

필요한 곳에서 P(B)>0P(B) > 0이고 P(A)>0P(A) > 0이라고 가정합시다. 조건부확률의 정의에 의해,

P(AB)=P(AB)P(B)P(A \mid B) = \frac{P(A \cap B)}{P(B)}

또한

P(BA)=P(AB)P(A)P(B \mid A) = \frac{P(A \cap B)}{P(A)}

두 번째 식에서,

P(AB)=P(BA)P(A)P(A \cap B) = P(B \mid A)P(A)

이를 첫 번째 식에 대입하면,

P(AB)=P(BA)P(A)P(B)P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)}

이것이 바로 베이즈 정리입니다.

베이즈 정리 계산 예제: 양성 의료 검사

어떤 질병이 한 집단의 1%1\%에 영향을 준다고 합시다. 한 검사는 민감도가 99%99\%이고, 위양성률이 5%5\%입니다.

다음과 같이 두겠습니다.

  • DD = 그 사람이 질병을 가지고 있다
  • ++ = 검사 결과가 양성이다

그러면

P(D)=0.01P(D) = 0.01 P(+D)=0.99P(+ \mid D) = 0.99 P(+Dc)=0.05P(+ \mid D^c) = 0.05

우리가 구하고 싶은 것은 P(D+)P(D \mid +), 즉 검사 결과가 양성일 때 그 사람이 실제로 질병을 가지고 있을 확률입니다.

먼저 양성 결과의 전체 확률을 구합니다. 양성은 두 가지 경우에 생길 수 있습니다. 질병이 있어서 양성이 나오거나, 질병이 없는데도 양성이 나오는 경우입니다.

P(+)=P(+D)P(D)+P(+Dc)P(Dc)P(+) = P(+ \mid D)P(D) + P(+ \mid D^c)P(D^c) P(+)=(0.99)(0.01)+(0.05)(0.99)=0.0594P(+) = (0.99)(0.01) + (0.05)(0.99) = 0.0594

이제 베이즈 정리를 적용합니다.

P(D+)=P(+D)P(D)P(+)=(0.99)(0.01)0.0594P(D \mid +) = \frac{P(+ \mid D)P(D)}{P(+)} = \frac{(0.99)(0.01)}{0.0594} P(D+)=0.00990.0594=160.167P(D \mid +) = \frac{0.0099}{0.0594} = \frac{1}{6} \approx 0.167

따라서 한 번 양성 판정을 받은 뒤 실제로 질병이 있을 확률은 99%99\%가 아니라 약 16.7%16.7\%입니다. 검사는 성능이 좋지만 질병 자체가 드물기 때문에, 양성 결과의 대부분은 여전히 질병이 없는 훨씬 더 큰 집단에서 나옵니다.

많은 사람들이 놓치는 핵심은 이것입니다. 검사 성능이 좋아도, 처음부터 질환이 드문 경우 사후확률은 생각보다 높지 않을 수 있습니다.

베이즈 정리의 유용한 두 경우 버전

증거가 서로 여집합 관계인 두 경우 AAAcA^c에서 올 수 있다면,

P(B)=P(BA)P(A)+P(BAc)P(Ac)P(B) = P(B \mid A)P(A) + P(B \mid A^c)P(A^c)

이를 베이즈 정리에 넣으면,

P(AB)=P(BA)P(A)P(BA)P(A)+P(BAc)P(Ac)P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B \mid A)P(A) + P(B \mid A^c)P(A^c)}

두 경우만 있는 문제에서는 이 형태가 가장 실용적인 경우가 많습니다.

베이즈 정리에서 자주 하는 실수

P(AB)P(A \mid B)P(BA)P(B \mid A)를 혼동하기

이 두 확률은 보통 같지 않습니다. 질병이 있을 때 양성일 가능성은 매우 높을 수 있지만, 양성이 나왔을 때 실제로 질병이 있을 가능성은 여전히 꽤 낮을 수 있습니다.

기저율을 무시하기

사전확률 P(A)P(A)는 중요합니다. AA가 매우 드문 사건이라면, 강한 증거가 있어도 사후확률이 직관만큼 높아지지 않을 수 있습니다.

P(B)P(B)를 너무 좁게 계산하기

분모는 단순히 남는 항이 아닙니다. 그것은 증거의 전체 확률이며, 여러 경우의 기여를 더해야 하는 경우가 많습니다.

P(B)=0P(B) = 0일 때 공식을 사용하기

이 형태의 베이즈 정리는 P(B)>0P(B) > 0을 필요로 합니다. 증거의 확률이 00이면, 기본 공식으로는 조건부확률 P(AB)P(A \mid B)가 정의되지 않습니다.

베이즈 정리가 쓰이는 곳

베이즈 정리는 의료 검사, 스팸 필터링, 신뢰도 분석, 머신러닝, 과학적 추론에 등장합니다. 각각의 경우에 공통된 아이디어는 같습니다. 새로운 정보가 들어오면 믿음을 갱신하는 것입니다.

특히 사람들은 처음부터 그 사건이 얼마나 흔했는지를 묻지 않은 채 증거에 과하게 반응하는 경향이 있는데, 이럴 때 베이즈 정리는 매우 유용합니다.

비슷한 베이즈 정리 문제를 풀어 보기

같은 의료 검사를 유지하되, 질병 비율을 1%1\%에서 10%10\%로 바꿔 보세요. 민감도와 위양성률은 그대로지만, 사후확률은 크게 달라집니다. 이 버전을 한 번 직접 계산해 보면 왜 사전확률이 중요한지 빠르게 체감할 수 있습니다.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →