이항분포는 번의 시행에서 정확히 번 성공할 확률을 알려 줍니다. 관심 있는 사건에 대해 각 시행이 두 가지 결과만 가져야 하고, 시행들이 서로 독립이며, 매번 성공확률이 같을 때만 사용해야 합니다.
이 조건들 중 하나라도 깨지면 계산식은 맞아 보일 수 있어도, 모델 자체는 잘못된 것입니다.
이항분포의 의미
같은 종류의 시행을 번 반복한다고 가정해 봅시다. 각 시행에서 한 결과를 성공, 다른 결과를 실패라고 정합니다.
매 시행의 성공확률이 모두 라면, 성공 횟수를 나타내는 확률변수 는 이항분포를 따를 수 있습니다.
이것은 보통 다음과 같이 씁니다.
이 표기는 다음을 뜻합니다.
- 은 시행 횟수
- 는 각 시행에서의 성공확률
- 는 성공이 몇 번 일어났는지를 셈
이것은 개수를 세는 모델입니다. 어떤 시행에서 성공했는지는 묻지 않습니다. 전체적으로 성공이 몇 번 나왔는지를 묻습니다.
이항분포 공식
정확히 번 성공할 확률은 다음과 같습니다.
각 부분은 다음 역할을 합니다.
- 는 번의 시행 중 번의 성공이 배치될 수 있는 경우의 수를 셉니다
- 는 그 번의 성공이 일어날 확률입니다
- 는 나머지 실패들이 일어날 확률입니다
이 공식은 에 대해 성립합니다.
언제 이항분포 공식을 사용할 수 있나
이항모형은 다음 조건이 모두 참일 때만 사용합니다.
시행 횟수가 고정되어 있음
시행이 몇 번인지 미리 알고 있어야 합니다. 예를 들어 동전을 번 던지는 것은 이 조건에 맞습니다.
각 시행에 두 가지 결과가 있음
추적하는 사건에 대해 각 시행은 성공 또는 실패로 분류될 수 있어야 합니다. 주사위를 던지는 경우도 성공을 "6이 나오는 것"처럼 정의하면 이 조건에 맞을 수 있습니다.
시행들이 서로 독립임
한 시행의 결과가 다음 시행의 확률을 바꾸면 안 됩니다. 복원추출은 이 조건에 맞을 수 있습니다. 작은 집단에서 비복원추출을 하는 경우는 보통 맞지 않습니다.
성공확률이 일정함
의 값이 시행마다 같아야 합니다. 매번 확률이 달라진다면, 단순한 이항모형은 적절하지 않습니다.
예제: 5번 던져 정확히 3번 앞면
앞면이 나올 확률이 인 치우친 동전이 있다고 합시다. 이 동전을 번 던질 때, 정확히 번 앞면이 나올 확률은 얼마일까요?
앞면을 성공 사건으로 두면,
공식을 사용하면,
이제 각 부분을 계산합니다.
따라서,
정확히 번 앞면이 나올 확률은 , 즉 입니다.
여기서 왜 이항모형이 타당할까요? 시행 횟수 이 고정되어 있고, 각 던지기마다 두 가지 결과가 있으며, 시행들이 서로 독립이고, 매번 같은 확률 을 가지기 때문입니다.
"적어도 한 번"을 빠르게 구하는 방법
"적어도 한 번 성공" 같은 문제는 여러 항을 더하는 것보다 여사건을 쓰는 편이 더 빠를 때가 많습니다.
예를 들어 이면,
이것이 가능한 이유는 "적어도 한 번 성공"이 "성공이 0번"의 여사건이기 때문입니다.
이항분포 문제에서 자주 하는 실수
조건을 무시함
흔한 실수는 시행들이 독립이 아닌데도 이항공식을 사용하는 것입니다. 대표적인 예가 작은 집합에서 비복원추출을 하면서도 가 전혀 변하지 않는다고 가정하는 경우입니다.
"성공"의 의미를 잘못 이해함
이항문제에서 성공은 꼭 좋은 결과를 뜻하지 않습니다. 단지 세기로 정한 결과를 의미할 뿐입니다.
"정확히", "적어도", "많아야"를 혼동함
이 표현들은 같은 실험에서도 서로 다른 계산으로 이어집니다. "정확히 번"은 한 항이고, "적어도 번"은 여러 항의 합이며, "많아야 번"은 또 다른 합입니다.
이항분포는 언제 쓰이나
이항분포는 불량 대 정상, 합격 대 불합격, 클릭 대 미클릭, 앞면 대 뒷면처럼 예/아니오 형태의 결과가 반복될 때 그 횟수를 셀 때 나타납니다.
품질 관리, 적절한 가정 아래의 표본조사, 신뢰성 문제, 통계의 기초 확률모형에서 유용하게 쓰입니다.
비슷한 문제를 직접 풀어 보세요
성공확률이 인 동전을 번 던지는 경우를 직접 해 보세요. 먼저 를 구하고, 그다음 여사건을 이용해 를 구해 보세요. 또 다른 경우로는 시행들이 더 이상 독립이 아닐 때 무엇이 달라지는지도 비교해 보세요.