相関係数というと、通常はピアソンの相関係数を指し、 と書きます。これは、2つの数値変数の線形関係の向きと強さを測る量です。
が正なら、2つの変数は一緒に増える傾向があります。 が負なら、一方が増えるともう一方は減る傾向があります。 が に近いとき、ピアソンの が示しているのは線形なパターンがほとんどないということであり、関係がまったくないとは限りません。
ピアソンの は、データが対応のある組になっていて、両方の変数が数値であり、要約したいパターンが直線的な傾向であるときに特に役立ちます。
相関係数が教えてくれること
ピアソンの は、2つの変数がどのように一緒に変動するかを標準化して表した指標です。対応のある標本データに対する式は次のとおりです。
分子は、2つの変数が同じ向きに動く傾向があると正になり、逆向きに動く傾向があると負になります。分母は、それぞれの変数のばらつきを使って、その共同の動きを尺度調整しています。
ピアソンの が定義されるとき、必ず次を満たします。
一方の変数にまったく変動がないと、分母が になるため、ピアソンの は定義されません。
正の値・負の値・0に近い値の解釈
まず符号を見ます。
- : 正の線形相関
- : 負の線形相関
- : 線形相関なし
次に大きさ を見ます。 に近い値ほど、点は直線的なパターンにより近く並びます。 に近い値ほど、線形なパターンは弱くなります。
「弱い」「中程度」「強い」といったラベルには注意が必要です。こうした区切りは文脈に依存します。ある分野では に意味があっても、別の分野では判断の根拠としては小さすぎるかもしれません。
最も安全なのは、 を散布図とあわせて読むことです。この数値は見えているパターンの要約であり、図の代わりになるものではありません。
計算例: を求める
対応のあるデータが次のように与えられているとします。
まず平均を計算します。
次に、平均からの偏差を並べます。
- について:
- について:
対応する偏差どうしを掛けて足し合わせます。
次に、2つの平方和を計算します。
したがって、
これは、この標本に強い正の線形相関があることを示しています。 が増えると、通常は も増え、点は右上がりの直線の近くにかなり集まるはずです。
相関を解釈するときによくある間違い
相関を因果関係とみなす
相関が高いからといって、一方の変数が他方の原因であるとは証明できません。第三の要因が両方に影響している可能性もありますし、観測されたデータではたまたまそう見えているだけかもしれません。
ピアソンの は線形だけを見ることを忘れる
ピアソンの がうまく測れるのは線形な関連だけです。関係が曲線的だと、変数どうしに明らかな関係があっても、相関は小さくなることがあります。
外れ値を無視する
1つの異常な点だけで が大きく変わることがあります。散布図に外れ値があると、相関は全体のパターンについて誤解を招く説明になるかもしれません。
条件に合わないのにピアソンの を使う
ピアソンの は、対応のある数値データと線形な関連のために設計されています。片方の変数がカテゴリ変数だったり、パターンが明らかに曲線的だったりする場合、この係数では本当に知りたい問いに答えられないことがあります。
0に近い値を読みすぎる
に近い値が意味するのは「線形な関連がほとんどない」であって、「どんな関係もない」ではありません。
ピアソンの相関係数はいつ使うのか
ピアソンの は、統計学、科学、経済学、社会調査、機械学習で、対応のある数値データを手早く要約するためによく使われます。線形回帰のようなモデルに進む前に、直線的なパターンがあるかを知りたいときに特に有用です。
実際には、まず散布図を見るべきです。相関係数は要約であって、データを見ることの代わりではありません。
似た問題に挑戦してみよう
すでに内容を理解している小さなデータセットを取り、点をプロットして、 を計算する前に傾向が正か負か、それともはっきりしないかを予想してみましょう。この簡単な比較は、相関係数が実際に何を語っているのかについて直感を育てる最も速い方法の1つです。
もう一歩進みたいなら、同じデータを単回帰直線でも調べてみましょう。そうすると、相関と予測が関係してはいるものの、同じではないことが見えやすくなります。