箱ひげ図は、データセットの中心、ばらつき、そして偏りの可能性をひと目で示すグラフです。これは、最小値、第1四分位数 、中央値、第3四分位数 、最大値からなる五数要約をもとに作られます。授業やソフトウェアで の規則を使う場合、ひげは絶対的な最小値と最大値ではなく、外れ値ではない範囲の端の値で止まることがあります。
箱は から までを表すので、データの中央 を含みます。箱の中の線は中央値です。ひげは、その中央半分より外側にデータがどこまで広がっているかを示します。
箱ひげ図が表すもの
箱ひげ図を使うと、次の3つのことをすばやく確認できます。
- 中心はどこか? 中央値を見ます。
- 中央半分はどれくらい散らばっているか? 箱の幅を見ます。
- 両端の広がりはつり合っているか? 2本のひげを比べます。
箱の幅は四分位範囲で、 です。 が大きいほど、データの中央半分のばらつきが大きいことを意味します。片方のひげがもう一方よりかなり長い場合、データはその方向に偏っている可能性があります。
多くの箱ひげ図では、外れ値の候補を示すために の規則も使います。この場合、ひげは外れ値ではない範囲の端の値で止まります。そのため、同じデータでも、ひげの決め方が異なれば、どちらも正しい箱ひげ図なのに見た目が少し違うことがあります。
データから箱ひげ図を作る例
次の並べ替え済みデータを使います。
値は 個あるので、中央値は中央の2つの値の平均です。
データ数が偶数なので、リストを同じ数ずつの2つの半分に分けます。下半分は なので、
上半分は なので、
これで五数要約は次のようになります。
次に四分位範囲を計算します。
よく使われる の外れ値の規則を使うと、境界は
と
です。すべてのデータ値は から の間に入っているので、この規則では外れ値の候補はありません。このデータセットでは、箱は から まで、中央値の線は 、ひげは と まで伸びます。
箱ひげ図をすばやく読む方法
まず中央値の線を見ます。これで、データの中心がどこにあるかがわかります。
次に、箱の幅とひげの長さを比べます。箱は値の中央 がどこにあるかを示し、ひげはその範囲より外側に両端がどこまで伸びているかを示します。
最後に、左右の非対称性を確認します。中央値が箱の中央からずれていたり、片方のひげがもう一方よりかなり長かったりする場合、分布は中心のまわりでつり合っていない可能性があります。
箱ひげ図でよくある間違い
よくある間違いの1つは、箱の両端を最小値と最大値だと読んでしまうことです。通常、それらはデータ全体の端ではなく、 と を表します。
もう1つの間違いは、すべての箱ひげ図が同じひげの規則を使っていると思い込むことです。ひげが最小値と最大値まで伸びる場合もあれば、外れ値ではない範囲の端の値で止まる場合もあります。
また、四分位数は並べ替えたデータに基づくことを忘れやすいです。先に値を小さい順に並べていないと、四分位数も中央値も間違ってしまいます。
箱ひげ図が役立つ場面
箱ひげ図は、値をすべて並べる代わりに、分布を手早く要約したいときに役立ちます。統計の授業、実験結果の要約、品質管理、グループ間の比較などでよく使われます。
特に、外れ値や偏りが重要なときに便利です。中央値や四分位数は、平均値だけを見るよりも安定していることが多いからです。
似たデータセットで試してみよう
短い並べ替え済みデータセットを用意して、まず外れ値を気にする前に五数要約を書き出し、箱をスケッチしてみましょう。似た統計の問題で四分位数や中央値を確認したいなら、まず自分で並べ替えたリストを作ってから、ソルバーで自分なりの例を試してみてください。