箱ひげ図(box-and-whisker plot)は、データの中心がどこにあるか、どのくらい散らばっているかを示すグラフです。中央値、データの中央 、そして両端に近い値が強調されるので、全体の形をすばやく読み取れます。
主な目印は、第1四分位数 、中央値、第3四分位数 、そして四分位範囲 です。ここで最初に大事なのは、四分位数の求め方には世界共通の1つのルールがあるわけではないという点です。授業、教科書、ソフトウェアで特定の方法が指定されているなら、最初から最後までその方法で統一してください。
箱ひげ図でひと目でわかること
箱は から までを表すので、データの中央 を含みます。箱の中の線は中央値です。
ひげは、箱の外側にデータがどこまで広がっているかを示します。箱ひげ図によっては最小値と最大値まで伸びます。別のものでは、外れ値とみなされない範囲で最も端にある値までで止まります。ひげの意味を判断する前に、そのルールを確認する必要があります。
四分位数とIQRのしくみ
四分位範囲は、データの中央半分の散らばりを表します。
が大きいほど、中央半分はより広く散らばっています。 が小さいほど、よりまとまって集まっています。
箱ひげ図の書き方を順番に確認しよう
毎回、同じ順序で進めます。
- データを小さい順に並べる。
- 中央値を求める。
- 指定された四分位数の求め方に従って と を求める。
- 数直線を引き、、中央値、 を記す。
- から まで箱を描き、その中に中央値の線を引く。
- 授業やソフトウェアで使うルールに従って、ひげを加える。
例題:箱ひげ図の四分位数を求める
まず、次のように並べ替えられたデータを考えます。
値は 個あるので、中央値は5番目の値です。
この例では、下半分と上半分を求めるときに、全体の中央値を含めないという、授業でよく使われるルールを使います。
下半分は
なので、
上半分は
なので、
次に、四分位範囲を求めます。
これで箱の主要な目印がそろいました。
ひげが最小値と最大値まで伸びるルールなら、ひげは と まで伸びます。したがって、箱は から まで、中央値の線は の位置にあり、図全体は から までになります。
箱ひげ図をすばやく読む方法
まず中央値を見て、データの中心を確認します。
次に箱の幅を見ます。箱が狭ければ、中央半分のデータはまとまっています。箱が広ければ、より広く散らばっています。
最後に、ひげの長さと箱の中での中央値の位置を比べます。片側が明らかに長ければ、その側に分布がより長く伸びている可能性があります。
箱ひげ図でよくある間違い
並べ替えの手順を省かないでください。データが順番になっていないと、中央値や四分位数は正しく求まりません。
すべての箱ひげ図が同じ四分位数のルールや同じひげのルールを使っていると思い込まないでください。異なる約束で作られていれば、どちらも正しくても見た目が違うことがあります。
箱の端を最小値と最大値だと読まないでください。通常、そこは と を表しています。
箱が広いからといって、その部分に「データが多い」とは限りません。意味するのは、その範囲の値が数直線上でより広い区間にわたっているということです。
箱ひげ図が役立つ場面
箱ひげ図は、すべての値を並べなくても、中心と散らばりを手早く確認したいときに便利です。特に、2つ以上のグループを横に並べて比較するときに役立ちます。
統計の授業、実験レポート、また中央値やデータの中央半分が、個々の値の細かな一覧より重要な場面でよく使われます。
自分でもやってみよう
短いデータを小さい順に並べ、五数要約を求めて、手で箱ひげ図をスケッチしてみましょう。そのあとグラフ作成ツールと比べて、四分位数のルールやひげのルールが一致しているか確かめてみてください。