散らばりの尺度は、データセットがどれだけ広がっているかを表します。基本となる3つの尺度は、範囲、分散、標準偏差です。範囲は最小値と最大値だけを使い、分散は平均からの距離の二乗の平均を測り、標準偏差は分散の平方根なので、散らばりを元の単位で表せます。
手早く要点だけ知りたいなら、ざっと確認するには範囲、厳密な統計処理には分散、解釈しやすい散らばりの尺度がほしいなら標準偏差を使います。
範囲・分散・標準偏差の概要
範囲は、最小値から最大値までの距離です。
計算は速いですが、使うのは2つの値だけです。1つの極端な値で大きく変わることがあります。
分散は、各値が平均からどれくらい離れているかを、距離を二乗したうえで測る尺度です。
母集団全体に対しては、
より大きな母集団を推定するための標本に対しては、
データが関心のある母集団全体そのものである場合にだけ を使います。より大きな集団から取り出した標本なら を使います。
標準偏差は分散の平方根です。
また、標本では
となります。
元の単位で表されるため、標準偏差は通常、分散よりも読み取りやすいです。
計算例:範囲は同じでも散らばりは違う
次の2つのデータセットを比べてみましょう。
- セットA:
- セットB:
どちらも最小値、最大値、平均が同じです。
各セットについて、
また、
です。
したがって、範囲だけを見ると同じ広がりに見えます。ですが、値の平均のまわりでの並び方は異なります。
セットA
平均からの偏差は
これを二乗すると
となります。
偏差の二乗和は です。これを母集団として扱うと、
また、
です。
セットB
平均からの偏差は
これを二乗すると
となります。
偏差の二乗和は なので、
また、
です。
どちらのセットも範囲は同じですが、セットBのほうが分散も標準偏差も大きくなります。ここが重要な点です。範囲は両端の値しか見ませんが、分散と標準偏差はデータセット全体を使います。
散らばりの尺度でよくある間違い
よくある間違いの1つは、範囲が同じなら散らばりも同じだと思い込むことです。上の例は、それが誤りである理由を示しています。
もう1つの間違いは、分散を元の単位で表される量だと考えることです。実際にはそうではありません。データの単位がメートルなら、分散の単位は平方メートルです。
3つ目の間違いは、母集団の式と標本の式を混同することです。正しい分母は状況によって決まります。母集団全体なら 、標本なら を使います。
また、分散と標準偏差は外れ値の影響を受けやすいことも覚えておくと役立ちます。大きな偏差ほど、平均をとる前に二乗されるからです。
それぞれの尺度が役立つ場面
範囲は、データがどのくらいの幅にわたっているかを手早く見たいときに使います。
分散は、他の統計手法の中で散らばりの尺度が必要なときに使います。確率や統計の多くの公式は分散を土台にしており、最終的な報告では代わりに標準偏差を示す場合でも同様です。
標準偏差は、データと同じ単位で散らばりを実用的に説明したいときに使います。授業でも実社会でも、多くの要約では最も読みやすい選択です。
似た問題に挑戦してみよう
平均と範囲が同じになる短いデータセットを2つ作り、分散と標準偏差を比べてみましょう。次のステップとしては、まず手計算で解いてから、ソルバーで自分なりの例を試してみるのもおすすめです。