累積度数とは、度数分布表で度数を順に足し上げた合計です。ある値や階級境界以下に、いくつの観測値があるかを示すので、中央値、四分位数、百分位数を求めるのに役立ちます。
オージャイブは、その累積和を表したグラフです。表とグラフを対応させて読めるようになると、階級にまとめられたデータの問題がずっと扱いやすくなります。
累積度数の定義
各階級の度数が なら、第 階級までの累積度数は
です。
各行で、合計に1つずつ階級が加わっていきます。ある階級の終わりで累積度数が なら、その階級以下に 個の観測値があることを意味します。
個々の値がそのまま並んだデータでは、累積度数は単なる累計です。階級にまとめられたデータでは、階級ごとの累計になります。
オージャイブで百分位数を読む方法
オージャイブは、累積度数を階級境界に対してプロットしたグラフです。連続量の階級データでは、通常は次をプロットします。
- 横軸に上側階級境界
- 縦軸に累積度数
その後、点をなめらかな曲線または折れ線で結びます。累積度数は減らないので、曲線は右上がりになります。
オージャイブの主な用途は、並べたデータの中での位置を読むことです。総度数を とすると、次のようになります。
- 中央値はおよそ 番目の値
- 第1四分位数はおよそ 番目の値
- 第3四分位数はおよそ 番目の値
- 第 百分位数はおよそ 番目の値
グラフでは、まずその縦の位置から始めて、横にオージャイブまで進み、そこから下に下ろして横軸上の値を推定します。
例題:中央値と第75百分位数
40人の生徒のテスト得点が、次のように階級にまとめられているとします。
| 得点 | 度数 | 累積度数 |
|---|---|---|
| 0-10 | ||
| 10-20 | ||
| 20-30 | ||
| 30-40 | ||
| 40-50 | ||
| 50-60 |
総度数は です。
表から中央値を求める
中央値は 番目の値です。
累積度数を見ると、
- 20-30 までの合計は
- 30-40 までの合計は
です。
したがって、 番目の値は - の階級にあります。
階級データとして推定値を求めるなら、その階級内で値がほぼ一様に分布しているとみなせる場合に限って補間を使います。すると
となります。
ここで、
- はその階級の下側境界
- はその階級の前までの累積度数
- はその階級の度数
- は階級の幅
です。
したがって
となります。
この値は正確な値ではありません。- の階級内で値が比較的なめらかに分布しているという仮定に依存しています。
第75百分位数を推定する
第 百分位数は 番目の値です。
累積度数から、
- 30-40 までの合計は
- 40-50 までの合計は
です。
したがって、 番目の値は - の階級にあります。
同じ補間の考え方を使うと、
となります。
オージャイブでは、累積度数の軸で を取り、そこから横に曲線まで進み、さらに下に下ろすと、得点の軸でおよそ が読めます。
累積度数でよくある間違い
度数と累積度数を混同する
度数は、1つの階級に含まれる観測値の個数です。累積度数は、その階級とそれ以前のすべての階級を合わせた観測値の個数です。
位置を間違える
中央値や百分位数では、その位置は総度数 から決まります。総度数を間違えると、その後のすべての手順がずれてしまいます。
階級データの推定値を正確な値だと思う
オージャイブや補間で得られるのは、階級内の推定値であって、元のデータの正確な値ではありません。その推定値は、区間内でデータがどう分布しているかに依存します。
横軸に誤った値を取る
階級データでは、オージャイブは通常、階級境界、特に上側階級境界に対して描きます。階級値を使って描くと、意味が変わってしまいます。
累積度数が使われる場面
累積度数は、階級ごとの個数そのものよりも、データを並べたときの位置が必要な場面で使われます。たとえば、試験の得点の要約、所得分布、品質管理のデータ、または各区間の個数より中央値や百分位数のほうが重要な場面です。
特に、生データが大量にあって長い一覧より階級表のほうが読みやすいときに便利です。
似た累積度数の問題に挑戦してみよう
小さな階級表を1つ用意して、まずオージャイブを描く前に累積度数の列を作ってみましょう。そのあと、グラフから中央値と1つの百分位数を読み取り、表からの推定値と比べてみてください。
もう1つ確認したいなら、 の自分なりの例を作り、 番目、 番目、 番目の値がどの階級に入るか考えてみましょう。これは考え方をしっかり身につける簡単な方法です。