共分散は、2つの変数がそれぞれの平均より上または下に一緒にある傾向があるかを測る量です。共分散が正なら、変数は平均に対して同じ方向に動くことが多いことを意味します。共分散が負なら、一方が平均より上のとき、もう一方は平均より下になる傾向があります。
多くの学生にとって大事な考え方は、共分散では生の数値そのものよりも符号のほうが役に立つことが多いという点です。共分散の大きさは両方の変数の単位に依存するため、それだけで関係の強さをきれいに表す尺度にはなりません。
標本と母集団における共分散の公式
対になった標本データでは、よく使われる公式は次のとおりです。
ここで と は標本平均です。各積 は、その組が両方の平均の同じ側にあるとき正になり、反対側にあるとき負になります。
標本ではなく母集団全体を扱う場合、分母は通常 ではなく になります。
標本データには標本版の公式を使い、データが記述したい母集団全体を表している場合にだけ母集団版を使います。
共分散の符号の読み方
共分散は、平均からの対になった偏差をもとに作られています。
両方の偏差が正なら、その積は正です。両方が負でも、その積はやはり正です。こうした組は、変数がそれぞれの中心に対して一緒に動いているので、共分散を大きくする方向に働きます。
一方の偏差が正で、もう一方が負なら、その積は負です。こうした組は、変数が逆方向に動いているので、共分散を小さくする方向に働きます。
つまり共分散は、「平均のまわりでの同時の動き」を平均したものだと考えられます。
計算例:勉強時間と小テストの点数
小さな標本として、勉強時間と小テストの点数が次のように記録されているとします。
まず平均を求めます。
次に、偏差とその積を計算します。
- のとき:
- のとき:
- のとき:
積を足し合わせます。
これは標本共分散なので、 で割ります。
共分散は正なので、この標本では2つの変数は同じ方向に動いています。ここでは、勉強時間が長いほど小テストの点数も高くなっています。
大切な注意点は、 が普遍的な強さの尺度ではないということです。この値の大きさは、ここでは「時間 × 点数」という単位に依存しています。測定尺度を変えれば、全体の傾向が似ていても共分散の値は変わります。
共分散と相関:重要な違い
共分散と相関は密接に関係していますが、答えている問いは少し異なります。
共分散は同時の動きの方向を示し、元の尺度を保ちます。相関は、標準偏差が 0 でないとき、共分散を標準偏差で割ることでその関係を標準化します。
そのため、相関は無単位で、異なるデータセットどうしでも比較しやすくなります。相関の値は から の間に収まりますが、共分散には決まった範囲がありません。
実際には、次のように使い分けます。
- 元の単位での同時変動が重要なときや、共分散行列のようなより大きな計算の一部として現れるときは、共分散を使います。
- データセット間で比較しやすい無単位の要約がほしいときは、相関を使います。
共分散でよくある間違い
共分散が大きければ自動的に強い関係だと考える
共分散が だからといって、共分散が の場合より自動的に「強い」とは限りません。単に変数がより大きな尺度で測定されているだけかもしれません。
標本の公式と母集団の公式を混同する
データが標本なら、 で割るのが標準です。データが関心のある母集団全体なら、 で割るのが母集団版です。
共分散が 0 なら関係がまったくないと考える
共分散が 0 に近いというのは、平均のまわりでの線形な同時変動が小さいことを意味します。非線形の関係まで否定するものではありません。
2つの変数が独立で、かつ共分散が存在するなら、共分散は です。しかし、その逆が常に成り立つとは限りません。
共分散を因果関係として読む
共分散は、変数がどのように一緒に変動するかを記述するだけです。なぜ一緒に変動するのかまでは説明しません。
共分散が使われる場面
共分散は、統計学、金融、機械学習、データ分析などで、対になった変数を一緒に調べる必要があるときに現れます。
特に共分散行列ではよく使われ、各要素が2つの変数がどのように同時に変動するかを要約しています。これは、ポートフォリオのリスク、主成分分析、多変量モデリングなどの分野で重要です。
似た問題に挑戦してみよう
任意の3組または4組の対になった値を取り、2つの平均を求めてから、対応する偏差を掛け合わせて平均してみてください。この一連の手順を行うだけで、共分散の符号がずっと具体的に感じられるようになります。
次のステップに進みたいなら、同じデータで 相関係数 も比べてみて、尺度を標準化すると解釈がどう変わるかに注目してみましょう。