ポアソン分布は、ある一定の区間で事象が独立に起こり、平均発生率がおおむね一定であるときに、 回起こる確率を表します。1区間あたりの平均的な電話件数、不良品数、到着数がわかっていれば、ポアソン分布を使って「ちょうど何回起こるか」の確率を求められます。
大事なのは計算そのものより、モデルの選び方です。独立性や平均発生率がほぼ一定という前提が妥当でないと、ポアソン分布の式を正しく使っていても、問いに合わない答えになることがあります。
ポアソン分布の公式
確率変数 がパラメータ のポアソン分布に従うとき、任意の整数 に対して、
となります。
ここで、 は求めたい事象のちょうどの回数、 は選んだ区間における期待される事象の回数です。
ポアソン分布では、平均と分散はどちらも に等しくなります。
ただし、実際のすべてのデータで平均と分散が一致するわけではありません。これはポアソン分布というモデルが予測する性質です。
の意味をやさしく説明すると
は、ある特定の区間における平均回数です。その区間は1時間、1平方メートル、1ページ、1キロメートルなどでもかまいませんが、はっきり定義する必要があります。
ある店に1時間あたり平均 件の電話がかかってくるなら、1時間という区間では です。2時間の区間にするなら、その2時間でも同じ平均発生率が成り立つ場合に限って を使います。
ここはとても間違えやすい点です。区間が変われば、通常は も変わります。
計算例:1時間にちょうど2件の電話がある確率
ある小さな店には、1時間あたり平均 件の客からの電話があります。電話の到着がほぼ独立で、平均発生率も安定しているとすると、次の1時間にちょうど 件の電話がある確率はどれくらいでしょうか。
ここでは 、 なので、
となります。
順に整理すると、
さらに を使うと、
したがって、確率は約 、つまり です。文脈に沿って言えば、次の1時間にちょうど 件の電話があるのは、珍しい出来事ではなく、十分ありそうな結果です。
ポアソン分布が適している場面
次の条件がだいたい成り立つとき、ポアソン分布を使うのが適切です。
- 時間や身長のような連続量を測るのではなく、起こった回数を数えている。
- 回数は1時間や1ページのような固定された区間で数えている。
- その区間の中で平均発生率がおおむね一定である。
- ある事象が起こっても、別の事象の起こりやすさが大きく直接変わらない。
このため、ポアソン分布は待ち行列、信頼性、交通流、通信、品質管理などでよく使われます。安定した発生率をもつカウントデータには向いていますが、強い集中や時間帯による大きな変動がある場合には適しません。
ポアソン分布の問題でよくあるミス
回数データ以外にポアソン分布を使う
ポアソン分布が扱うのは のような回数です。身長、時間、気温のような連続的な測定値には使えません。
の換算を忘れる
が1時間あたりだからといって、30分あたりでも とはなりません。30分なら、同じ平均発生率が成り立つとき、対応するパラメータは です。
「まれな事象」だけが条件だと思う
「まれ」という言い方はイメージをつかむ助けにはなりますが、それだけでは十分ではありません。本当に大切なのは、固定された区間、ほぼ一定の平均発生率、そして近似的な独立性が妥当かどうかです。
平均=分散を自然法則のように考える
ポアソン分布では平均と分散はどちらも です。しかし実際のデータがいつもその通りになるとは限りません。この等式は自然法則ではなく、モデルの性質です。
ポアソン分布と二項分布の違い
ある区間の中で何回事象が起こるかを数え、しかも設定の中に固定された試行回数がないなら、ポアソン分布を使います。
一方、すでに試行回数が固定されていて、各試行の成功確率が同じなら、二項分布を使います。たとえば、検査した 個の電球の中に不良品がいくつあるかを数える問題は、試行回数が 回に固定されているので二項分布です。
似た問題に挑戦してみよう
1日あたり平均 件の配達がある場合で、自分でも試してみましょう。明日ちょうど 件の配達がある確率を求め、そのあと区間を半日に変えて、計算する前に がどう変わるかを考えてみてください。