베이즈 정리는 새로운 증거를 본 뒤 확률을 어떻게 갱신하는지 알려줍니다. 이면,
이 식은 아주 구체적인 질문에 답합니다. 사건 가 이미 일어났을 때, 이제 사건 가 일어났을 가능성은 얼마나 될까요? 이 아이디어는 의료 검사, 스팸 필터링, 그리고 처음부터 그 사건이 얼마나 흔했는지도 함께 보지 않으면 증거가 오해를 부를 수 있는 모든 상황에서 중요합니다.
쉬운 말로 보는 베이즈 정리 공식
베이즈 정리는 세 가지 요소를 결합합니다.
- 증거를 보기 전에 믿고 있던 값, 에서 시작합니다
- 그 증거가 해당 사건과 얼마나 잘 맞는지, 를 봅니다
- 그 증거가 전체적으로 얼마나 흔한지, 로 조정합니다
결과인 를 사후확률이라고 합니다.
공식의 각 부분이 뜻하는 것
다음 식에서
는 사전확률입니다. 새로운 증거를 사용하기 전, 에 대해 가지고 있던 출발 확률입니다.
는 가능도입니다. 가 참일 때 증거 가 나타날 가능성이 얼마나 되는지를 말합니다.
는 증거 자체의 전체 확률입니다. 어떤 증거는 가 거짓이어도 흔하게 나타날 수 있기 때문에 이 항이 중요합니다.
는 사후확률입니다. 가 일어났다는 사실을 알게 된 뒤 갱신된 의 확률입니다.
분모가 답을 바꾸는 이유
베이즈 정리는 단지 내 가설에 잘 맞는 증거라고 해서 무조건 높게 평가하지 않습니다. 그와 같은 증거가 원래 전반적으로도 자주 나타나는지를 함께 묻습니다.
그래서 분모 가 중요합니다. 그 증거가 많은 경우에 흔하게 나타난다면, 그것을 봤다고 해서 믿음이 크게 바뀌면 안 됩니다. 반대로 가 참일 때를 제외하면 드문 증거라면, 믿음이 크게 바뀔 수 있습니다.
조건부확률에서 바로 나오는 짧은 증명
필요한 곳에서 이고 이라고 가정합시다. 조건부확률의 정의에 의해,
또한
두 번째 식에서,
이를 첫 번째 식에 대입하면,
이것이 바로 베이즈 정리입니다.
베이즈 정리 계산 예제: 양성 의료 검사
어떤 질병이 한 집단의 에 영향을 준다고 합시다. 한 검사는 민감도가 이고, 위양성률이 입니다.
다음과 같이 두겠습니다.
- = 그 사람이 질병을 가지고 있다
- = 검사 결과가 양성이다
그러면
우리가 구하고 싶은 것은 , 즉 검사 결과가 양성일 때 그 사람이 실제로 질병을 가지고 있을 확률입니다.
먼저 양성 결과의 전체 확률을 구합니다. 양성은 두 가지 경우에 생길 수 있습니다. 질병이 있어서 양성이 나오거나, 질병이 없는데도 양성이 나오는 경우입니다.
이제 베이즈 정리를 적용합니다.
따라서 한 번 양성 판정을 받은 뒤 실제로 질병이 있을 확률은 가 아니라 약 입니다. 검사는 성능이 좋지만 질병 자체가 드물기 때문에, 양성 결과의 대부분은 여전히 질병이 없는 훨씬 더 큰 집단에서 나옵니다.
많은 사람들이 놓치는 핵심은 이것입니다. 검사 성능이 좋아도, 처음부터 질환이 드문 경우 사후확률은 생각보다 높지 않을 수 있습니다.
베이즈 정리의 유용한 두 경우 버전
증거가 서로 여집합 관계인 두 경우 와 에서 올 수 있다면,
이를 베이즈 정리에 넣으면,
두 경우만 있는 문제에서는 이 형태가 가장 실용적인 경우가 많습니다.
베이즈 정리에서 자주 하는 실수
와 를 혼동하기
이 두 확률은 보통 같지 않습니다. 질병이 있을 때 양성일 가능성은 매우 높을 수 있지만, 양성이 나왔을 때 실제로 질병이 있을 가능성은 여전히 꽤 낮을 수 있습니다.
기저율을 무시하기
사전확률 는 중요합니다. 가 매우 드문 사건이라면, 강한 증거가 있어도 사후확률이 직관만큼 높아지지 않을 수 있습니다.
를 너무 좁게 계산하기
분모는 단순히 남는 항이 아닙니다. 그것은 증거의 전체 확률이며, 여러 경우의 기여를 더해야 하는 경우가 많습니다.
일 때 공식을 사용하기
이 형태의 베이즈 정리는 을 필요로 합니다. 증거의 확률이 이면, 기본 공식으로는 조건부확률 가 정의되지 않습니다.
베이즈 정리가 쓰이는 곳
베이즈 정리는 의료 검사, 스팸 필터링, 신뢰도 분석, 머신러닝, 과학적 추론에 등장합니다. 각각의 경우에 공통된 아이디어는 같습니다. 새로운 정보가 들어오면 믿음을 갱신하는 것입니다.
특히 사람들은 처음부터 그 사건이 얼마나 흔했는지를 묻지 않은 채 증거에 과하게 반응하는 경향이 있는데, 이럴 때 베이즈 정리는 매우 유용합니다.
비슷한 베이즈 정리 문제를 풀어 보기
같은 의료 검사를 유지하되, 질병 비율을 에서 로 바꿔 보세요. 민감도와 위양성률은 그대로지만, 사후확률은 크게 달라집니다. 이 버전을 한 번 직접 계산해 보면 왜 사전확률이 중요한지 빠르게 체감할 수 있습니다.