平均、中央値、最頻値は、データの中心を表す3つの方法です。平均は全体の平均値、中央値は並べ替えたあとで真ん中にくる値、最頻値は最も多く現れる値です。手早く判断するなら、データが比較的バランスよく分布しているときは平均、外れ値が結果をゆがめるおそれがあるときは中央値、最もよく現れる値が重要なときは最頻値を使います。

これらの代表値で答えが異なることがあるのは、「中心」の定義がそれぞれ違うからです。だからこそ役に立ちます。

平均・中央値・最頻値の概要

平均は、データに含まれるすべての値を使います。

mean=sum of all valuesnumber of values\text{mean} = \frac{\text{sum of all values}}{\text{number of values}}

すべての値が計算に関わるので、極端に大きい値や小さい値が1つあるだけで、平均は「典型的な値」という感覚から離れてしまうことがあります。

中央値は、データを小さい順または大きい順に並べたときの真ん中の値です。値の個数が奇数なら真ん中の値は1つです。値の個数が偶数なら、真ん中の2つの値の平均が中央値になります。

最頻値は、最も多く現れる値です。データによっては最頻値が1つだけの場合もあれば、複数ある場合もあり、どの値も他より多く現れないなら最頻値がない場合もあります。

外れ値を含む例

データ 2,3,3,4,202, 3, 3, 4, 20 を使います。

平均は

2+3+3+4+205=325=6.4\frac{2 + 3 + 3 + 4 + 20}{5} = \frac{32}{5} = 6.4

です。

中央値は、並べ替えたときの真ん中の値が 33 なので 33 です。

最頻値も 33 です。ほかのどの値よりも多く現れるからです。

この例が重要なのは、データに外れ値 2020 が含まれているからです。この1つの値によって平均は 6.46.4 まで引き上げられますが、中央値は 33 のままです。このデータの「典型的な値」を表したいなら、通常は中央値のほうがよい要約になります。

平均・中央値・最頻値でよくある間違い

中央値を求める前に並べ替えない

中央値は順序に依存します。先に並べ替えていなければ、選んだ真ん中の値は信頼できません。

「平均」をいつも mean の意味だと思い込む

日常会話では、「平均」という言葉が広い意味で使われることがあります。ですが統計では、より正確に区別するべきです。中央値や最頻値のほうが役に立つこともあります。

どんなデータにも最頻値があると思い込む

1,2,3,41, 2, 3, 4 というデータには、どの値も繰り返されないので最頻値はありません。また、複数の値が同じ最大の回数で現れれば、最頻値が2つ以上あることもあります。

外れ値を無視する

1つの値がほかと比べて極端に大きい、または小さいと、平均は大きく動くことがあります。だからといって平均が間違いというわけではありませんが、その数値が語る内容は変わります。

それぞれの代表値をいつ使うか

データが比較的バランスよく分布していて、すべての値を結果に反映させたいときは、平均を使います。安定した小テストの点数などはわかりやすい例です。

極端な値が中心をゆがめるおそれがあるときは、中央値を使います。所得、家賃、住宅価格のデータでは、非常に大きな値が少数あるだけで平均が上に引っ張られることが多いため、よく使われます。

最もよく現れる値が、計算上の中心より重要なときは、最頻値を使います。店で最も多く売れるシャツのサイズや、アンケートで最も多かった回答などがこの例です。

なぜ生徒がこの考え方を学ぶのか

代表値は、データを理解するための最初の一歩になることが多いです。グループを比較したり、ばらつきを見たり、データが歪んでいるかを判断したりする前に、値の集まりを手短に要約するのに役立ちます。

データが数値で、比較的安定しているなら、平均は有益なことが多いです。データが歪んでいるなら、中央値のほうが安全なことが多いです。何が最もよく起こるかを知りたい問いなら、最頻値だけが直接答えてくれる場合もあります。

似た問題に挑戦してみよう

5,6,6,7,305, 6, 6, 7, 30 というリストで、3つの代表値をすべて求めてみましょう。次に 303088 に置き換えて、何が変わるか比べてみてください。この1か所の変更だけで、外れ値の影響がずっと見えやすくなります。

問題の解き方でお困りですか?

問題をアップロードすると、検証済みのステップバイステップ解答が数秒で届きます。

GPAI Solver を開く →