포아송 분포는 사건들이 서로 독립적으로 일어나고 평균 발생률이 대체로 일정할 때, 고정된 구간에서 0,1,2,0, 1, 2, \dots번 사건이 일어날 확률을 구해 줍니다. 한 구간에서 평균 통화 수, 불량 수, 도착 수를 알고 있다면 포아송 모형으로 정확히 몇 번 일어날 확률을 계산할 수 있습니다.

핵심은 계산식보다 모형 선택입니다. 독립성이나 평균 발생률이 거의 일정하다는 가정이 타당하지 않으면, 포아송 공식 자체는 맞아 보여도 엉뚱한 질문에 답하게 될 수 있습니다.

포아송 분포 공식

확률변수 XX가 매개변수 λ>0\lambda > 0인 포아송 분포를 따른다면, 임의의 정수 k0k \ge 0에 대해

P(X=k)=eλλkk!P(X = k) = \frac{e^{-\lambda}\lambda^k}{k!}

여기서 kk는 구하고 싶은 정확한 사건 수이고, λ\lambda는 선택한 구간에서의 기대 사건 수입니다.

포아송 모형에서는 평균과 분산이 모두 λ\lambda와 같습니다.

mean=variance=λ\text{mean} = \text{variance} = \lambda

그렇다고 해서 실제 모든 데이터의 평균과 분산이 항상 같다는 뜻은 아닙니다. 포아송 모형이 그런 관계를 예측한다는 뜻입니다.

λ\lambda의 쉬운 의미

λ\lambda는 하나의 특정한 구간에서의 평균 개수입니다. 그 구간은 1시간, 1제곱미터, 1페이지, 1킬로미터일 수 있지만, 무엇을 기준으로 하는지 분명하게 정해야 합니다.

어떤 가게가 시간당 평균 33통의 전화를 받는다면, 1시간 구간에서는 λ=3\lambda = 3입니다. 2시간 구간에서는 그 2시간 동안에도 같은 평균 발생률이 유지된다고 볼 수 있을 때만 λ=6\lambda = 6을 사용합니다.

이 부분은 실수하기 가장 쉬운 지점 중 하나입니다. 구간이 바뀌면 보통 λ\lambda도 함께 바뀝니다.

풀이 예제: 1시간 동안 정확히 2통의 전화

작은 가게에 고객 전화가 시간당 평균 33통 온다고 합시다. 전화 도착이 서로 어느 정도 독립적이고 평균 발생률이 안정적이라면, 다음 1시간 동안 정확히 22통의 전화가 올 확률은 얼마일까요?

여기서는 λ=3\lambda = 3, k=2k = 2이므로

P(X=2)=e3322!P(X = 2) = \frac{e^{-3}3^2}{2!}

차근차근 정리하면

P(X=2)=9e32P(X = 2) = \frac{9e^{-3}}{2}

e30.0498e^{-3} \approx 0.0498을 사용하면

P(X=2)9(0.0498)20.224P(X = 2) \approx \frac{9(0.0498)}{2} \approx 0.224

따라서 확률은 약 0.2240.224, 즉 22.4%22.4\%입니다. 맥락상 이는 다음 1시간에 정확히 22통의 전화가 오는 일이 드문 일이 아니라 꽤 자연스러운 결과라는 뜻입니다.

포아송 모형이 적절한 경우

다음 조건이 모두 어느 정도 타당할 때 포아송 모형을 사용합니다.

  • 시간이나 키처럼 연속적인 값을 재는 것이 아니라 발생 횟수를 세고 있다.
  • 개수는 1시간, 1페이지처럼 고정된 구간에서 측정된다.
  • 그 구간 동안 평균 발생률이 대체로 일정하다.
  • 한 사건이 다른 사건의 발생 가능성을 직접 크게 높이거나 낮추지 않는다.

이 때문에 포아송 분포는 대기행렬, 신뢰성, 교통 흐름, 통신, 품질 관리에서 자주 등장합니다. 안정적인 발생률을 가진 개수 데이터에 특히 잘 맞으며, 강한 군집 현상이나 시간대별 급격한 변화가 있는 상황에는 적합하지 않습니다.

포아송 문제에서 흔한 실수

개수 데이터가 아닌 경우에 포아송을 사용하는 실수

포아송 분포는 0,1,2,3,0, 1, 2, 3, \dots 같은 개수에 대한 분포입니다. 키, 시간, 온도처럼 연속적인 측정값을 모델링하지는 않습니다.

λ\lambda를 구간에 맞게 바꾸지 않는 실수

시간당 λ=3\lambda = 3이라고 해서 30분당도 λ=3\lambda = 3인 것은 아닙니다. 평균 발생률이 같다면 30분에 해당하는 매개변수는 λ=1.5\lambda = 1.5입니다.

"드문 사건"만이 전부라고 생각하는 실수

"드문 사건"이라는 표현은 직관을 돕기는 하지만 전부는 아닙니다. 진짜 중요한 것은 고정된 구간, 대체로 일정한 평균 발생률, 그리고 근사적인 독립성이 타당한지입니다.

평균과 분산이 같다는 것을 자연 법칙처럼 여기는 실수

포아송 모형에서는 평균과 분산이 모두 λ\lambda입니다. 하지만 실제 데이터는 항상 그렇게 깔끔하게 움직이지 않으므로, 이 등식은 자연 법칙이 아니라 모형의 성질입니다.

포아송 분포와 이항분포 비교

고정된 구간에서 몇 번 사건이 일어나는지를 세고 있고, 설정 자체에 시행 횟수가 정해져 있지 않다면 포아송 모형을 사용합니다.

반면 이미 시행 횟수가 고정되어 있고 각 시행의 성공 확률이 같다면 이항 모형을 사용합니다. 예를 들어 검사한 전구 2020개 중 불량 전구 수를 세는 것은 시행 횟수가 2020으로 고정되어 있으므로 이항분포에 해당합니다.

비슷한 문제를 직접 풀어 보세요

하루 평균 배송이 55건인 경우로 직접 바꿔 보세요. 내일 정확히 44건의 배송이 있을 확률을 구한 뒤, 구간을 반나절로 바꾸었을 때 계산 전에 λ\lambda가 어떻게 달라지는지도 판단해 보세요.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →