分散は、数値が平均のまわりにどれくらい散らばっているかを表します。分散が小さいと、値は平均の近くに集まっています。分散が大きいと、値はより広く散らばっています。
分散を求めるには、各値が平均からどれだけ離れているかを求め、その距離を二乗し、それらを平均します。二乗することが重要なのは、そうしないと正のずれと負のずれが打ち消し合ってしまうからです。
分散の公式:母集団と標本
求めたい集団のすべての値がデータに含まれている場合は、母分散の公式を使います。
データが標本にすぎず、より大きな母集団のばらつきを推定したい場合は、標本分散の公式を使います。
違いは分母だけです。母集団全体なら を使います。標本からの推定なら を使います。
分散が意味すること
分散は、中心がどこにあるかを示すものではありません。データがその中心からどれくらい離れている傾向があるかを示します。
2つのデータセットの平均が同じなら、分散が大きいほうが、平均からより遠い値を平均的に含んでいます。ずれを二乗するため、特に大きな差はより強く影響します。
重要な点が1つあります。分散の単位は二乗された単位です。データの単位がメートルなら、分散の単位は平方メートルになります。そのため、日常的には標準偏差のほうが解釈しやすいことがよくあります。
分散の求め方:計算例
データセット を使います。
まず平均を求めます。
次に、各値から平均を引き、その結果を二乗します。
それらの二乗偏差を足します。
この8個の値が母集団全体なら、母分散は次のようになります。
同じ8個の値を、より大きな母集団から取り出した標本とみなすなら、標本分散は次のようになります。
この例から、基本的な考え方がよくわかります。二乗偏差の値は同じでも、 で割るか で割るかによって最終結果は変わります。
分散でよくある間違い
- 偏差を二乗し忘れること。偏差をそのまま平均すると、正の値と負の値が打ち消し合い、ばらつきを正しく測れません。
- 母分散と標本分散を混同すること。母集団全体なら で割り、より大きな母集団を推定する標本なら で割ります。
- 分散の単位が二乗単位であることを忘れること。分散は有用ですが、元の単位に戻る標準偏差のほうが読み取りやすいことがよくあります。
- 分散が大きいことは常に悪いと思い込むこと。分散が大きいとは、単にばらつきが大きいという意味です。それが重要かどうかは文脈によります。
分散が使われる場面
分散は、ばらつきを一貫した方法で表したり比較したりしたいときに使われます。
- 統計学では、データセットがどれくらい散らばっているかを要約するのに役立ちます。
- 品質管理では、工程が時間の経過とともに安定しているかを追跡するのに役立つことがあります。
- 金融では、収益の変動の大きさを表すために使われますが、リスクの考え方はそれだけではありません。
- 機械学習やデータ分析では、特徴量や誤差が観測ごとにどのように変化するかを表すのに役立ちます。
似た問題に挑戦してみよう
平均は同じでも、ばらつきが異なる2つの小さなデータセットを自分で作ってみましょう。両方の分散を計算して、より広く散らばったデータセットのほうが大きい値になるか確かめてみてください。この1回の比較だけでも、考え方がしっかり身につくことがよくあります。