선형 회귀는 최적합 직선을 사용해 한 변수가 다른 변수와 함께 어떻게 변하는지 설명하는 방법입니다. 입력 변수 하나와 출력 변수 하나를 사용하는 단순 선형 회귀에서는 모형이 다음과 같습니다.
여기서 는 예측값, 은 기울기, 는 절편입니다. 가장 일반적인 적합 방법은 보통 최소제곱법으로, 제곱 잔차의 합이 가능한 한 작아지도록 하는 직선을 선택합니다.
핵심만 기억하면 이렇습니다. 직선 모형이 적절하게 맞는다면, 기울기는 가 1단위 증가할 때 모형이 예측하는 의 변화량을 알려줍니다.
선형 회귀 방정식이 알려주는 것
기울기 은 선형 모형이 데이터를 적절히 설명한다고 볼 수 있을 때, 가 증가하면 가 얼마나 변할 것으로 예측되는지를 나타냅니다. 절편 는 일 때의 예측된 값입니다.
여기서 "예측된"이라는 말이 중요합니다. 회귀직선은 보통 모든 점을 정확히 지나지 않습니다. 대신 모든 점에서의 오차를 균형 있게 반영하여, 각각의 관측값을 완벽히 맞추기보다 전체적인 경향을 요약합니다.
와 에 대한 선형 회귀 공식
단순 선형 회귀에서는 값들이 모두 같지 않다면, 최소제곱 계수는 다음과 같이 쓸 수 있습니다.
그리고
여기서 는 값들의 평균이고, 는 값들의 평균입니다. 이 공식들은 단순 선형 회귀에 대한 것입니다. 입력 변수가 하나보다 많다면 설정이 달라집니다.
최소제곱법이 제곱 잔차를 사용하는 이유
데이터 점들을 산점도 위의 점 구름이라고 생각해 보세요. 그 점 구름 근처를 지나는 직선은 많이 있을 수 있습니다. 선형 회귀는 잔차라고 하는 세로 방향의 오차가 전체적으로 작아지도록 하는 직선을 선택합니다.
잔차를 제곱하면 두 가지 유용한 점이 있습니다. 양의 오차와 음의 오차가 서로 상쇄되는 것을 막아 주고, 큰 오차에 더 큰 가중치를 주게 됩니다.
단순 선형 회귀 예제
데이터 점이 , , , 라고 가정해 봅시다. 이 점들에 단순 선형 회귀직선을 적합해 보겠습니다.
먼저 평균을 구합니다.
이제 기울기를 계산합니다.
다음으로 절편을 계산합니다.
따라서 회귀식은 다음과 같습니다.
이면, 모형의 예측값은 다음과 같습니다.
잔차 하나도 확인해 볼 수 있습니다. 일 때 예측값은 다음과 같습니다.
실제값은 이므로 잔차는 다음과 같습니다.
즉, 그 점은 회귀직선보다 만큼 아래에 있습니다. 잔차 하나만으로 전체 모형이 좋은지 판단할 수는 없지만, 회귀가 오차를 어떻게 측정하는지는 보여 줍니다.
선형 회귀에서 자주 하는 실수
한 가지 실수는 직선이 반드시 모든 점을 지나야 한다고 생각하는 것입니다. 회귀는 완벽한 적합이 아니라 최적의 적합을 찾는 것입니다.
또 다른 실수는 기울기를 모든 데이터 점에 정확히 적용되는 규칙처럼 해석하는 것입니다. 기울기는 모형이 나타내는 평균적인 예측 변화량입니다.
세 번째 실수는 회귀를 인과관계의 증거로 여기는 것입니다. 강한 선형 패턴은 예측을 돕거나 관련성을 설명할 수는 있지만, 변수들이 왜 함께 움직이는지를 그것만으로 설명하지는 못합니다.
관측된 데이터 범위를 벗어난 예측을 지나치게 신뢰하는 것도 흔한 문제입니다. 원래 범위 안에서는 적합된 직선이 좋아 보여도, 외삽은 실패할 수 있습니다.
선형 회귀를 언제 사용하나요?
선형 회귀는 직선으로 요약하는 것이 유용하고, 관심 있는 범위에서 관계가 적어도 대체로 선형일 때 사용합니다. 대표적인 예로는 크기로 가격을 추정하거나, 공부 시간으로 점수를 추정하거나, 안정된 조건에서 입력으로 출력을 추정하는 경우가 있습니다.
특히 해석하기 쉬운 모형이 필요할 때 유용합니다. 기울기, 절편, 잔차는 모형이 무엇을 하는지 숨기지 않고도 비교적 쉽게 설명할 수 있습니다.
직선을 믿기 전에 빠르게 확인할 것
회귀직선을 사용하기 전에 두 가지를 물어보세요. 산점도가 대체로 선형처럼 보이나요? 그리고 맥락상 기울기가 오해를 부르지 않고 의미가 있나요? 둘 중 하나라도 아니라면, 다른 모형이 더 나을 수 있습니다.
비슷한 문제를 직접 해보세요
점 네 개를 정하고, 스케치한 뒤 계산기나 소프트웨어로 직선을 적합해 보세요. 그런 다음 예측값과 실제값을 비교해 보세요. 잔차를 살펴보는 것이 회귀직선이 실제로 무엇을 하고 있는지 이해하는 가장 빠른 방법인 경우가 많습니다.