正規分布は、平均に近い値ほど最もよく現れ、平均から離れるほど現れにくくなる、左右対称の釣鐘型の確率モデルです。ベルカーブ、zスコア、正規分布の公式を理解したいなら、重要な考え方はシンプルです。平均が中心を決め、標準偏差が広がりを決めます。
このモデルが役立つのは、データや状況に対して正規分布の形が妥当な近似になっている場合だけです。その条件が成り立てば、典型的な範囲を見積もったり、zスコアで値を比較したり、結果がどれくらい珍しいかを解釈したりできます。
ベルカーブが意味すること
ある変数が正規分布に従うなら、平均に近い値は、平均から遠い値よりもよく現れます。左右は鏡のように対称なので、平均より標準偏差 個分だけ上にあることと、標準偏差 個分だけ下にあることは、同じくらい珍しいということです。
よく次のような表記を見かけます。
これは、確率変数 が平均 、分散 の正規分布でモデル化されていることを意味します。分散は なので、標準偏差は であり、 です。
正規分布の公式をやさしく見る
正規分布の密度関数は次の式です。
この考え方を使うために、公式のすべての部分を暗記する必要はありません。大事なのは、 が曲線を左右に動かし、 が曲線を細くしたり広くしたりすることです。
この公式が表しているのは密度であって、ある1つの正確な値の確率ではありません。連続モデルでは、確率は や のような区間から求めます。
平均・標準偏差・zスコアのつながり
平均を変えると、曲線は左右に移動します。標準偏差を変えると、曲線は細くなったり広くなったりします。 が小さいと、値は平均のまわりにぎゅっと集まります。 が大きいと、値はより広く散らばります。
ある1つの値を分布全体の中で比べたいときは、zスコアを使います。
これは、その値の相対的な位置を標準偏差の単位で示します。もし なら、その値は平均より標準偏差 個分だけ上にあります。もし なら、平均より標準偏差 個分だけ下にあります。
正規モデルでは、実用的な近道として経験則があります。
これは、正規モデルが本当に妥当なときにだけ使ってください。便利な近似ではありますが、すべての実データに必ず当てはまる保証ではありません。
zスコアとベルカーブの例題
試験の点数が次のようにモデル化されているとします。
つまり、平均点は 、標準偏差は です。
まず、経験則を使います。点数のおよそ は、平均から標準偏差1個分の範囲に入るはずです。
したがって、すぐにわかる区間は
です。
およそ の点数は、平均から標準偏差2個分の範囲に入るはずです。
したがって、その区間は
です。
次に、 点を取った1人の生徒を考えます。zスコアは
となります。これは、その点数が平均より標準偏差 個分だけ上にあることを意味します。ここから最も手早く実用的に読めるのは、その点数が明らかに平均より高いが、分布の端に極端に近いほどではないということです。
正規分布の問題でよくある間違い
釣鐘型のグラフをすべて正規分布だと思う
データによっては、歪みがあったり、裾が重かったり、山が複数あったりします。そのような場合、見た目がなんとなく丸くても、正規モデルは適切でないことがあります。
密度と確率を混同する
公式の は、 がある1つの正確な値をとる確率ではありません。連続分布では、ちょうど1点の確率は なので、代わりに区間を使って考えます。
モデルを確かめずに経験則を使う
-- の法則は正規分布のものです。どんなデータセットにも自動的に当てはめてはいけません。
分散と標準偏差を取り違える
分散は です。zスコアで使うのは であって、 ではありません。
正規分布が使われる場面
正規分布は、測定値がある中心の値のまわりに集まり、極端な値が比較的まれなときによく現れます。測定誤差のモデル、テストの点数の解釈、品質管理、標本平均の研究などでよく使われます。
ただし、現実のデータがすべて正規分布になるわけではありません。形、文脈、前提条件を見て、その近似が妥当なときに正規モデルが有用だという意味です。
似た問題に挑戦してみよう
例を に変えて、 の zスコアを計算してみましょう。次に、値のおよそ を含む区間を求めてください。平均や標準偏差を変えた自分なりの例で試してみると、ベルカーブがどう変わるかがよくわかります。