線形回帰は、最もよく当てはまる直線を使って、ある変数が別の変数とともにどう変化するかを表す方法です。入力変数 が1つ、出力変数 が1つの単回帰では、モデルは次のようになります。
ここで、 は予測値、 は傾き、 は切片です。通常の当てはめ方法は最小二乗法で、残差の二乗和ができるだけ小さくなる直線を選びます。
要点だけ覚えるなら、次を押さえてください。直線モデルが妥当である限り、傾きは が1単位増えたときに がどれだけ変化するとモデルが予測するかを表します。
線形回帰の方程式:何がわかるのか
傾き は、線形モデルがデータの妥当な説明であるなら、 が 増えたときの の予測変化量を表します。切片 は、 のときの の予測値です。
ここで大事なのは「予測」という言葉です。回帰直線は通常、すべての点を通るわけではありません。そうではなく、全体として誤差のつり合いを取り、各観測値に完全一致するのではなく傾向を要約します。
と の線形回帰公式
単回帰では、 の値がすべて同じでないなら、最小二乗法による係数は次のように書けます。
そして
ここで は の平均、 は の平均です。これらの公式は単回帰に対するものです。入力変数が2つ以上ある場合は、設定が変わります。
最小二乗法で残差を二乗する理由
データ点を散布図上の点の集まりだと考えてみましょう。その集まりの近くを通る直線はたくさん考えられます。線形回帰は、残差と呼ばれる縦方向のずれが全体として小さくなる直線を選びます。
残差を二乗すると、2つの利点があります。正の誤差と負の誤差が打ち消し合うのを防げること、そして大きなずれにより大きな重みを与えられることです。
単回帰の簡単な例
データ点が 、、、 だとします。これに単回帰直線を当てはめます。
まず平均を求めます。
次に傾きを計算します。
次に切片を計算します。
したがって、回帰式は
です。
のとき、モデルの予測は
となります。
残差を1つ確認することもできます。 のとき、予測値は
です。
実際の値は なので、残差は
となります。
この点は回帰直線より だけ下にあります。1つの残差だけではモデル全体が良いかどうかはわかりませんが、回帰がどのように誤差を測るかはわかります。
線形回帰でよくある間違い
1つ目の間違いは、直線がすべての点を通らなければならないと思うことです。回帰は完全一致ではなく、最もよく当てはまることを目指します。
2つ目の間違いは、傾きをすべてのデータ点に当てはまる厳密な規則として読むことです。傾きは、モデルによる平均的な予測変化量です。
3つ目の間違いは、回帰を因果関係の証明として扱うことです。強い線形パターンは予測を支えたり関連を表したりできますが、それだけで変数がなぜ一緒に動くのかを説明することはできません。
また、観測されたデータ範囲の外での予測を過信しやすい点にも注意が必要です。元の範囲内で当てはめた直線がよく見えても、外挿はうまくいかないことがあります。
線形回帰を使う場面
線形回帰は、直線による要約が役立ち、関心のある範囲で関係が少なくともおおよそ線形であるときに使われます。よくある用途には、大きさから価格を見積もること、勉強時間から得点を見積もること、安定した条件下で入力から出力を見積もることなどがあります。
特に、解釈しやすいモデルがほしいときに有用です。傾き、切片、残差は、モデルが何をしているかを隠さずに説明できるほど単純です。
直線を信頼する前の簡単な確認
回帰直線を使う前に、2つのことを自分に問いかけましょう。散布図はおおよそ直線的に見えるか。文脈の中で、その傾きは誤解を招かず意味のあるものか。どちらかの答えが「いいえ」なら、別のモデルのほうがよいかもしれません。
似た問題をやってみよう
4つの点を選び、概形を描いて、電卓やソフトウェアで直線を当てはめてみましょう。そのあと、予測値と実際の値を比べます。残差を見ることは、回帰直線が実際に何をしているのかを理解する最も速い方法であることがよくあります。