散布図 — 相関、近似直線、例

散布図は、2つの数値変数の関係を表すグラフです。各点は1組の値を表すので、データが増加しているか、減少しているか、ばらついているか、集まりがあるか、または変わった点を含むかをすぐに確認できます。

だからこそ、散布図は多くの学生が実際に知りたい「このデータでは何が起きているのか？」という問いに最も手早く答える方法です。相関を計算したり近似直線を引いたりする前に、その要約がそもそも意味をもつかどうかをグラフが教えてくれます。

散布図の読み方

横軸には1つの変数、縦軸にはもう1つの変数をとります。ある生徒が $4$ 時間勉強して $78$ 点を取ったなら、その点は $(4,78)$ です。

点をグラフに打ったら、全体のパターンを見ます。

あわせて、クラスター、すき間、外れ値も確認しましょう。実際のデータがぴったり1本の直線上に並ぶことはほとんどないので、目標は完全な一致ではなく傾向を見ることです。

相関は、直線的な関係の向きと強さを表します。ここで重要なのは「直線的」という条件です。相関は、点がどれだけ直線の傾向に合っているかを要約しています。

点が右上がりの直線のまわりに集まっていれば、相関は正です。右下がりの直線のまわりに集まっていれば、相関は負です。点がばらばらに散っていて、はっきりした直線方向が見えなければ、直線的な相関は弱いか、0に近いといえます。

曲線的なパターンでも、実際には関係があることがあります。ただし、強い直線的相関をもたないだけです。

近似直線は、点全体の傾向を表すために引く直線です。すべての点を通る必要はありません。役割は、点の集まり全体に対しておおむね近くにあることです。

近似直線は、散布図がおおむね直線的なときにだけ使いましょう。その場合、この直線は次の2つに役立ちます。

パターンが曲線的だったり、クラスターに分かれていたり、外れ値の影響が大きかったりすると、直線の近似直線は説明する以上に情報を隠してしまうことがあります。

先生が5人の生徒について、学習時間と小テストの点数を記録したとします。

(1,55),\ (2,61),\ (3,68),\ (4,74),\ (5,81)

これらの点は左から右へ上がっていて、かなり一直線に近く並んでいます。つまり、この関係は正であり、おおむね直線的です。

したがって、この場合は相関も近似直線も妥当な要約です。学習時間が長いほど小テストの点数も高くなる傾向があるので、近似直線の傾きは正になると考えられます。

ここで $(5,40)$ という点を1つ追加してみましょう。全体の傾向はまだ正かもしれませんが、この点は外れ値であり、近似直線を下向きに引っ張る可能性があります。だからこそ、要約より先にグラフを見るべきなのです。図を見れば、その要約が信頼できるかどうかがわかります。

2つの変数が一緒に動いていても、それだけで一方が他方の原因だとは限りません。両方に影響する第三の要因があるかもしれませんし、見た目よりも複雑なパターンかもしれません。

データの中には、直線ではなく曲線に従うものがあります。その場合、線形の近似直線は誤解を招く要約になることがあります。

1つの変わった点だけで、見かけの傾向が大きく変わることがあります。外れ値があるからといって必ずしもデータが間違っているとは限りませんが、文脈を確認せずに無視してはいけません。

散布図は、対応のあるデータに対してのみ使えます。各点は、 $x$ の値と $y$ の値の両方をもつ1つの観測から来ていなければなりません。

散布図は、2つの数値変数を比べたいときに、統計学、科学、ビジネス、社会調査などで使われます。よくある例としては、身長と体重、広告費と売上、勉強時間とテストの点数などがあります。

特に分析の最初の段階で役立ちます。というのも、1つの式だけでは見えにくいクラスター、すき間、外れ値のようなパターンを明らかにできるからです。

対応のある小さなデータセットを用意して、相関を計算する前に点をスケッチしてみましょう。次の3つを自分に問いかけてください。パターンは上がっているか下がっているか、おおむね直線的に見えるか、ほかの点から極端に離れた点はあるか。

パターンがおおむね直線的に見えるなら、同じデータを相関係数や単純な近似直線で調べてみましょう。図から要約へ進む自然な次の一歩です。

問題をアップロードすると、検証済みのステップバイステップ解答が数秒で届きます。