선형 회귀를 쉽게 말하면 무엇인가요?

선형 회귀는 데이터에 직선을 맞춰, 한 변수가 변할 때 다른 변수가 어떻게 변하는지 설명하거나 예측하는 방법입니다.

선형 회귀는 어떤 방정식을 사용하나요?

단순 선형 회귀에서 적합된 직선은 $\hat{y} = b_0 + b_1x$로 나타내며, 여기서 $b_0$는 절편이고 $b_1$은 기울기입니다.

선형 회귀는 인과관계를 증명하나요?

아니요. 회귀직선은 관련성을 설명하고 예측을 도울 수는 있지만, 그것만으로 인과관계를 확립하지는 못합니다.

선형 회귀 — 방정식, 공식과 예제

선형 회귀는 최적합 직선을 사용해 한 변수가 다른 변수와 함께 어떻게 변하는지 설명하는 방법입니다. 입력 변수 $x$ 하나와 출력 변수 $y$ 하나를 사용하는 단순 선형 회귀에서는 모형이 다음과 같습니다.

\hat{y} = b_0 + b_1x

여기서 $\hat{y}$ 는 예측값, $b_1$ 은 기울기, $b_0$ 는 절편입니다. 가장 일반적인 적합 방법은 보통 최소제곱법으로, 제곱 잔차의 합이 가능한 한 작아지도록 하는 직선을 선택합니다.

\sum_{i=1}^n \left(y_i - \hat{y}_i\right)^2 = \sum_{i=1}^n \left(y_i - (b_0 + b_1x_i)\right)^2

핵심만 기억하면 이렇습니다. 직선 모형이 적절하게 맞는다면, 기울기는 $x$ 가 1단위 증가할 때 모형이 예측하는 $y$ 의 변화량을 알려줍니다.

선형 회귀 방정식이 알려주는 것

기울기 $b_1$ 은 선형 모형이 데이터를 적절히 설명한다고 볼 수 있을 때, $x$ 가 $1$ 증가하면 $y$ 가 얼마나 변할 것으로 예측되는지를 나타냅니다. 절편 $b_0$ 는 $x = 0$ 일 때의 예측된 $y$ 값입니다.

여기서 "예측된"이라는 말이 중요합니다. 회귀직선은 보통 모든 점을 정확히 지나지 않습니다. 대신 모든 점에서의 오차를 균형 있게 반영하여, 각각의 관측값을 완벽히 맞추기보다 전체적인 경향을 요약합니다.

$b_0$ 와 $b_1$ 에 대한 선형 회귀 공식

단순 선형 회귀에서는 $x$ 값들이 모두 같지 않다면, 최소제곱 계수는 다음과 같이 쓸 수 있습니다.

b_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}

그리고

b_0 = \bar{y} - b_1\bar{x}

여기서 $\bar{x}$ 는 $x$ 값들의 평균이고, $\bar{y}$ 는 $y$ 값들의 평균입니다. 이 공식들은 단순 선형 회귀에 대한 것입니다. 입력 변수가 하나보다 많다면 설정이 달라집니다.

최소제곱법이 제곱 잔차를 사용하는 이유

데이터 점들을 산점도 위의 점 구름이라고 생각해 보세요. 그 점 구름 근처를 지나는 직선은 많이 있을 수 있습니다. 선형 회귀는 잔차라고 하는 세로 방향의 오차가 전체적으로 작아지도록 하는 직선을 선택합니다.

잔차를 제곱하면 두 가지 유용한 점이 있습니다. 양의 오차와 음의 오차가 서로 상쇄되는 것을 막아 주고, 큰 오차에 더 큰 가중치를 주게 됩니다.

단순 선형 회귀 예제

데이터 점이 $(1,2)$ , $(2,2)$ , $(3,4)$ , $(4,4)$ 라고 가정해 봅시다. 이 점들에 단순 선형 회귀직선을 적합해 보겠습니다.

먼저 평균을 구합니다.

\bar{x} = \frac{1+2+3+4}{4} = 2.5

\bar{y} = \frac{2+2+4+4}{4} = 3

이제 기울기를 계산합니다.

b_1 = \frac{(-1.5)(-1)+(-0.5)(-1)+(0.5)(1)+(1.5)(1)}{(-1.5)^2+(-0.5)^2+(0.5)^2+(1.5)^2}

b_1 = \frac{4}{5} = 0.8

다음으로 절편을 계산합니다.

b_0 = \bar{y} - b_1\bar{x} = 3 - 0.8(2.5) = 1

따라서 회귀식은 다음과 같습니다.

\hat{y} = 1 + 0.8x

$x=5$ 이면, 모형의 예측값은 다음과 같습니다.

\hat{y} = 1 + 0.8(5) = 5

잔차 하나도 확인해 볼 수 있습니다. $x=2$ 일 때 예측값은 다음과 같습니다.

\hat{y} = 1 + 0.8(2) = 2.6

실제값은 $2$ 이므로 잔차는 다음과 같습니다.

y-\hat{y} = 2 - 2.6 = -0.6

즉, 그 점은 회귀직선보다 $0.6$ 만큼 아래에 있습니다. 잔차 하나만으로 전체 모형이 좋은지 판단할 수는 없지만, 회귀가 오차를 어떻게 측정하는지는 보여 줍니다.

선형 회귀에서 자주 하는 실수

한 가지 실수는 직선이 반드시 모든 점을 지나야 한다고 생각하는 것입니다. 회귀는 완벽한 적합이 아니라 최적의 적합을 찾는 것입니다.

또 다른 실수는 기울기를 모든 데이터 점에 정확히 적용되는 규칙처럼 해석하는 것입니다. 기울기는 모형이 나타내는 평균적인 예측 변화량입니다.

세 번째 실수는 회귀를 인과관계의 증거로 여기는 것입니다. 강한 선형 패턴은 예측을 돕거나 관련성을 설명할 수는 있지만, 변수들이 왜 함께 움직이는지를 그것만으로 설명하지는 못합니다.

관측된 데이터 범위를 벗어난 예측을 지나치게 신뢰하는 것도 흔한 문제입니다. 원래 범위 안에서는 적합된 직선이 좋아 보여도, 외삽은 실패할 수 있습니다.

선형 회귀를 언제 사용하나요?

선형 회귀는 직선으로 요약하는 것이 유용하고, 관심 있는 범위에서 관계가 적어도 대체로 선형일 때 사용합니다. 대표적인 예로는 크기로 가격을 추정하거나, 공부 시간으로 점수를 추정하거나, 안정된 조건에서 입력으로 출력을 추정하는 경우가 있습니다.

특히 해석하기 쉬운 모형이 필요할 때 유용합니다. 기울기, 절편, 잔차는 모형이 무엇을 하는지 숨기지 않고도 비교적 쉽게 설명할 수 있습니다.

직선을 믿기 전에 빠르게 확인할 것

회귀직선을 사용하기 전에 두 가지를 물어보세요. 산점도가 대체로 선형처럼 보이나요? 그리고 맥락상 기울기가 오해를 부르지 않고 의미가 있나요? 둘 중 하나라도 아니라면, 다른 모형이 더 나을 수 있습니다.

비슷한 문제를 직접 해보세요

점 네 개를 정하고, 스케치한 뒤 계산기나 소프트웨어로 직선을 적합해 보세요. 그런 다음 예측값과 실제값을 비교해 보세요. 잔차를 살펴보는 것이 회귀직선이 실제로 무엇을 하고 있는지 이해하는 가장 빠른 방법인 경우가 많습니다.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →