散布図は、2つの数値変数の関係を表すグラフです。各点は1組の値を表すので、データが増加しているか、減少しているか、ばらついているか、集まりがあるか、または変わった点を含むかをすぐに確認できます。
だからこそ、散布図は多くの学生が実際に知りたい「このデータでは何が起きているのか?」という問いに最も手早く答える方法です。相関を計算したり近似直線を引いたりする前に、その要約がそもそも意味をもつかどうかをグラフが教えてくれます。
散布図の読み方
横軸には1つの変数、縦軸にはもう1つの変数をとります。ある生徒が 時間勉強して 点を取ったなら、その点は です。
点をグラフに打ったら、全体のパターンを見ます。
- 正の相関: 点が左から右へ上がる傾向がある。
- 負の相関: 点が左から右へ下がる傾向がある。
- 相関がほとんどない、またははっきりしない: 点に強い直線的傾向が見られない。
あわせて、クラスター、すき間、外れ値も確認しましょう。実際のデータがぴったり1本の直線上に並ぶことはほとんどないので、目標は完全な一致ではなく傾向を見ることです。
散布図での相関の意味
相関は、直線的な関係の向きと強さを表します。ここで重要なのは「直線的」という条件です。相関は、点がどれだけ直線の傾向に合っているかを要約しています。
点が右上がりの直線のまわりに集まっていれば、相関は正です。右下がりの直線のまわりに集まっていれば、相関は負です。点がばらばらに散っていて、はっきりした直線方向が見えなければ、直線的な相関は弱いか、0に近いといえます。
曲線的なパターンでも、実際には関係があることがあります。ただし、強い直線的相関をもたないだけです。
近似直線が役立つとき
近似直線は、点全体の傾向を表すために引く直線です。すべての点を通る必要はありません。役割は、点の集まり全体に対しておおむね近くにあることです。
近似直線は、散布図がおおむね直線的なときにだけ使いましょう。その場合、この直線は次の2つに役立ちます。
- 傾向を要約すること
- 観測された範囲内で大まかな予測をすること
パターンが曲線的だったり、クラスターに分かれていたり、外れ値の影響が大きかったりすると、直線の近似直線は説明する以上に情報を隠してしまうことがあります。
散布図の例: 学習時間と小テストの点数
先生が5人の生徒について、学習時間と小テストの点数を記録したとします。
これらの点は左から右へ上がっていて、かなり一直線に近く並んでいます。つまり、この関係は正であり、おおむね直線的です。
したがって、この場合は相関も近似直線も妥当な要約です。学習時間が長いほど小テストの点数も高くなる傾向があるので、近似直線の傾きは正になると考えられます。
ここで という点を1つ追加してみましょう。全体の傾向はまだ正かもしれませんが、この点は外れ値であり、近似直線を下向きに引っ張る可能性があります。だからこそ、要約より先にグラフを見るべきなのです。図を見れば、その要約が信頼できるかどうかがわかります。
散布図でよくある間違い
相関を因果関係とみなす
2つの変数が一緒に動いていても、それだけで一方が他方の原因だとは限りません。両方に影響する第三の要因があるかもしれませんし、見た目よりも複雑なパターンかもしれません。
曲線的なパターンに無理に直線を当てはめる
データの中には、直線ではなく曲線に従うものがあります。その場合、線形の近似直線は誤解を招く要約になることがあります。
外れ値を無視する
1つの変わった点だけで、見かけの傾向が大きく変わることがあります。外れ値があるからといって必ずしもデータが間違っているとは限りませんが、文脈を確認せずに無視してはいけません。
1つの点が何を表すかを忘れる
散布図は、対応のあるデータに対してのみ使えます。各点は、 の値と の値の両方をもつ1つの観測から来ていなければなりません。
散布図が使われる場面
散布図は、2つの数値変数を比べたいときに、統計学、科学、ビジネス、社会調査などで使われます。よくある例としては、身長と体重、広告費と売上、勉強時間とテストの点数などがあります。
特に分析の最初の段階で役立ちます。というのも、1つの式だけでは見えにくいクラスター、すき間、外れ値のようなパターンを明らかにできるからです。
似た問題に挑戦してみよう
対応のある小さなデータセットを用意して、相関を計算する前に点をスケッチしてみましょう。次の3つを自分に問いかけてください。パターンは上がっているか下がっているか、おおむね直線的に見えるか、ほかの点から極端に離れた点はあるか。
パターンがおおむね直線的に見えるなら、同じデータを相関係数や単純な近似直線で調べてみましょう。図から要約へ進む自然な次の一歩です。