数学でいう最頻値とは、データセットの中で最も多く現れる値のことです。2つ以上の値が同じ最大の度数で並ぶ場合、そのデータセットには複数の最頻値があります。すべての値が同じ回数だけ現れるなら、最頻値はありません。
最頻値は、「いちばんよくあるものは何か」を知りたいときに役立ちます。平均が意味を持ちにくい靴のサイズやアンケートの選択肢のようなカテゴリーデータにも使えます。
最頻値でわかること
最頻値が答えるのは、シンプルに1つの問いです。どの値が最もよく現れるのか、ということです。
そのため、全体のバランスよりも繰り返し現れることが大事な場面で役立ちます。たとえば店は、平均の靴のサイズではなく、最もよく売れる靴のサイズを知りたいかもしれません。
平均値とは違って、最頻値には一般的な公式はありません。度数を数えて求めます。
最頻値をすばやく求める方法
- データセットをわかりやすく書き出します。
- それぞれの値が何回現れるかを数えます。
- いちばん大きい度数を見つけます。
- その度数をもつ値を見つけます。
並べ替えは必須ではありませんが、同じ値を見つけやすくなることがよくあります。
例題:最頻値を求める
データセット を使います。
それぞれの値を数えると、
- は1回現れます。
- は2回現れます。
- は1回現れます。
- は1回現れます。
最大の度数は で、その度数をもつ値は だけです。したがって、最頻値は です。
ここで大事なのは、いちばん大きい数や真ん中の数を探しているのではないということです。探しているのは、最も多く現れる値です。
データセットに最頻値が2つある場合と、最頻値がない場合
データセット を考えます。
も も2回ずつ現れ、ほかのどの値よりも多く現れています。この場合、そのデータセットには2つの最頻値があります。多くの教科書では、これを双峰性と呼びます。
次に を考えます。
それぞれの値は1回ずつしか現れないので、ほかより多く現れる値はありません。この場合、そのデータセットに最頻値はありません。
最頻値を求めるときのよくある間違い
- 最も多く現れる値ではなく、いちばん大きい数を選んでしまうこと。 では、最頻値は ではなく です。
- どのデータセットにも最頻値が必ず1つあると思い込むこと。最頻値が複数ある場合もあれば、まったくない場合もあります。
- 最頻値・中央値・平均値を混同すること。最頻値は繰り返し現れること、中央値は順に並べたときの真ん中、平均値は平均を表します。
最頻値が特に役立つ場面
最頻値は、最も多いカテゴリーが重要なときに特に役立ちます。
服のサイズ、アンケートの回答、同じ整数の結果が繰り返し出るようなデータでうまく使えます。データのばらつきが大きく、ほとんどすべての値が異なる場合は、最頻値からあまり多くのことはわからないかもしれません。そのようなときは、平均値や中央値のほうがよりわかりやすい要約になります。
自分でもやってみよう
のような短いリストを考えてみましょう。まず、最頻値が1つあるのか、2つあるのか、それともないのかを判断します。そのあと平均値や中央値と比べて、同じデータをそれぞれの代表値がどう違って表しているかを見てみましょう。