ヒストグラムは、数値データが から 、 から のような区間にどれくらい入っているかを表すグラフです。階級の幅は各区間の大きさで、度数はその区間に入る値の個数です。
すばやく読むには、まず横軸の区間ラベルを確認し、いちばん高い棒を見つけ、棒が少なくなったり消えたりしている場所に注目します。そうすると、データがどこに集中し、どこが少ないかがわかります。
ヒストグラムでわかること
ヒストグラムは、区間ごとにまとめた数値データに使います。これらの区間は、階級や bin と呼ばれることもあります。棒がつながっているのは、区間が数直線上で隣り合っているからです。
そのため、ヒストグラムは棒グラフと同じではありません。棒グラフは、スポーツや色のような別々のカテゴリを比べます。ヒストグラムは、分布の形を表します。
度数と階級の幅
ある階級の 度数 とは、その区間に入る観測値の個数です。たとえば、 から の階級にテストの点数が 個入っていれば、その度数は です。
階級の幅 は、その区間の大きさです。 から の階級なら、階級の幅は です。すべての階級の幅が同じなら、棒が高いほど度数が大きいことを意味します。
階級の幅が等しくない場合は、棒の高さをそのまま比べてはいけません。多くの授業では、そのとき縦軸を 度数密度 に変え、棒の高さではなく面積が度数を表すようにします。
したがって、棒を比べる前に、階級の幅が等しいかどうか、そして縦軸が何を表しているかを確認しましょう。
階級の幅が等しいヒストグラムの例
次の小テストの点数をまとめたヒストグラムを考えます。
| 点数の区間 | 度数 |
|---|---|
| から | |
| から | |
| から | |
| から | |
| から |
どの階級も幅は なので、棒の高さをそのまま比べられます。
いちばん高い棒は から なので、この区間に最も多くの点数が入っています。点数の多くは から の間にあり、 未満や を超える点数は少ししかありません。
わかりやすくまとめるなら、「点数は中央付近に集まっていて、特に から に最も集中している」と言えます。
ヒストグラムの読み取り方を順番に見る
まず横軸を見て、各棒がどの範囲を表しているかを確認します。次に、階級の幅がすべて等しいかどうかを見ます。
幅が等しければ、いちばん高い棒が最もよく現れる区間を示します。そのあとで全体の形を見ます。中心はどこか、空いている部分はあるか、どちらか一方がより長く伸びているかを確認します。
幅が等しくない場合は、高さを比べる前にいったん立ち止まりましょう。そのグラフが度数を使っているのか、度数密度を使っているのかを知る必要があります。
よくある間違い
ヒストグラムと棒グラフを混同する
ヒストグラムでは、区間がつながっているので、棒はふつう接しています。棒グラフではカテゴリが別々なので、棒の間にすき間があるのが普通です。
階級の幅を無視する
区間の幅がすべて同じかを確認せずに、高さだけを比べてしまうことがよくあります。これは、階級の幅が等しい場合、または縦軸がすでに度数密度で調整されている場合にしか正しくありません。
区間の端の扱いをあいまいにする
グループ化されたデータでは、階級の境界について一貫したルールが必要です。たとえば、 という点数は、2つの階級の両方に入ってはいけません。どちら側を含むかは、ラベルや文脈からわかることが多いです。
元のデータを正確に読み取れると思う
ヒストグラムは、まとめられたデータを表しています。全体の傾向はよくわかりますが、茎葉図のように元の値をすべて復元することはできません。
ヒストグラムが役立つ場面
ヒストグラムは、数値データがどのように分布しているかを手早くつかみたいときに役立ちます。統計、理科の実験、テストの点数、応答時間、品質管理のデータなどでよく使われます。
特に、要約統計量を計算する前に役立ちます。データが左右対称に近いか、偏っているか、かたまっているか、あるいは異常に広がっているかが見えるからです。
次にやってみること
少量の数値データを用意し、同じ幅の区間に分けて、手でヒストグラムを描いてみましょう。そのあと、平均や中央値を計算する前に、分布の特徴を1文で説明してみてください。さらに進めるなら、階級の幅を変えた場合も試して、見え方がどう変わるかを比べてみましょう。