度数分布とは、データセットの中で各値・カテゴリ・区間がどれくらいの頻度で現れるかを示す表やグラフのことです。データ量が多いときは、近い値どうしを階級区間にまとめ、その区間に入る個数を度数とします。
これは、生データのままだと全体を見渡しにくいことが多いからです。度数分布を使うと、値がどこに集中しているか、どこで少なくなるか、どの結果が最も多いかがすぐに見えてきます。
度数分布表とグループ化した度数分布表の違い
グループ化しないデータでは、表に各値をそのまま別々に並べられます。たとえば得点が なら、 の度数は です。 が3回現れているからです。
より大きな数値データでは、正確な値を -、-、- のような区間にまとめることがよくあります。この形をグループ化した度数分布といいます。
階級区間のしくみ
階級区間とは、近い値をひとつのグループにまとめるための範囲です。よいグループ化表では、すべての観測値がちょうど1つの階級に入り、階級どうしは重なりません。
たとえば -、-、- のような区間を使うと、 のような値は必ず1つの階級にだけ入ります。このような明確なルールは重要です。階級の境界が重なると、表の意味があいまいになります。
階級の幅とは、各区間の大きさのことです。階級が -、-、- なら、幅は一定です。これはヒストグラムを描くときに重要で、棒の高さをそのまま比較してよいのは、階級の幅が等しい場合だけです。
例題:度数分布の読み取り
ある先生が 人の小テストの点数を記録し、次の区間にまとめたとします。
| 得点区間 | 度数 |
|---|---|
| - | |
| - | |
| - | |
| - | |
| - |
区間 - の度数が最も大きいので、ここが最も多い得点帯です。これは全員が同じ点数だったという意味ではありません。 人の生徒がその区間のどこかの点を取った、という意味です。
また、度数を合計すると生徒の総数になります。
個数ではなく割合を知りたいなら、相対度数を使います。
区間 - の相対度数は次のとおりです。
したがって、生徒の が 点から 点の間でした。
度数分布のグラフ:棒グラフとヒストグラムのどちらを使う?
度数分布は、表・棒グラフ・ヒストグラムで表せます。どのグラフが適切かは、データの種類によって決まります。
好きな果物や交通手段の種類のように、独立したカテゴリを数えるときは棒グラフを使います。カテゴリがはっきり分かれているので、棒の間は離れています。
数値データを区間にまとめるときはヒストグラムを使います。区間は連続した尺度を表すので、棒は接しています。
すべての階級区間の幅が同じなら、ヒストグラムで棒が高いほど度数が大きいと考えてよいです。階級の幅が異なる場合は、高さだけを見ると誤解を招くことがあります。その場合は、棒の高さだけでなく面積が度数を表すように、度数密度を使う必要があります。
度数分布表でよくある間違い
カテゴリと区間を混同する
カテゴリに使う棒グラフと、グループ化した数値データに使うヒストグラムは同じ意味ではありません。間違ったグラフを使うと、データの構造が見えにくくなります。
重なった階級を使う
区間には明確なルールが必要です。たとえば - と - のような設定は、 をどちらに入れるかをはっきり決めない限り問題になります。
グループ化で細かい情報が失われることを忘れる
グループ化した度数分布はデータを要約しますが、元の値をすべてそのまま残すわけではありません。得点を区間にまとめると、全体の傾向は見やすくなりますが、そのぶん精密さは少し失われます。
幅の違う棒を同じように比較する
ある階級区間の幅が別の階級の2倍あるなら、そのヒストグラムは等しい幅のヒストグラムと同じようには読めません。条件が重要です。階級幅が等しければ高さを直接比較できますが、等しくなければできません。
度数分布が使われる場面
度数分布は、統計、授業、アンケート、品質管理、実験や лаборатория作業でよく使われます。生データの一覧が長くなり、ざっと見ただけでは傾向がつかめなくなったときに特に役立ちます。
また、ヒストグラム、累積度数、グループ化データの平均、散らばりの見積もりといった関連する考え方の出発点にもなります。
似た問題に挑戦してみよう
ワークシート、実験、得点一覧から 個から 個の数を取り出してみましょう。まずグループ化しない度数表を作り、次に同じデータを階級区間にまとめ直します。この2つを比べることは、度数分布によって何が見えやすくなり、グループ化によってどんな細かい情報が隠れるのかを理解する最も速い方法の1つです。