회귀분석은 하나 이상의 예측변수가 변할 때 결과변수가 어떻게 변하는지 설명합니다. 예측변수가 하나이고 결과가 수치형이면 단순 선형회귀를, 예측변수가 여러 개이고 결과가 수치형이면 다중 선형회귀를, 합격/불합격처럼 결과가 이진형이면 로지스틱 회귀를 사용합니다.

이 구분만 알아도 가장 많이 찾는 질문에는 빠르게 답할 수 있습니다.

  • 단순 선형회귀: 예측변수 1개, 수치형 결과.
  • 다중 선형회귀: 예측변수 여러 개, 수치형 결과.
  • 로지스틱 회귀: 예/아니오, 합격/불합격, 클릭함/클릭하지 않음 같은 이진형 결과.

그다음부터 중요한 것은 해석입니다. 계수는 모형이 결과변수의 유형에 맞고 데이터에도 충분히 잘 맞을 때만, 우리가 기대하는 의미를 가집니다.

회귀분석이 하는 일

회귀는 단순히 점들 사이에 직선을 그리는 것이 아닙니다. 예측변수와 기대되는 결과를 연결하는 규칙을 만들어서, 패턴을 설명하거나 예측할 수 있게 합니다.

선형회귀에서는 그 규칙이 결과의 기댓값에 대한 직선 모형입니다. 로지스틱 회귀에서는 확률을 위한 모형을 세우므로 예측값이 0011 사이에 머뭅니다.

단순 선형회귀: 예측변수 1개, 수치형 결과

단순 선형회귀는 하나의 예측변수 xx와 하나의 수치형 결과 yy를 사용합니다.

y^=b0+b1x\hat{y} = b_0 + b_1x

여기서 y^\hat{y}는 예측된 결과값, b0b_0는 절편, b1b_1은 기울기입니다.

기울기 b1b_1은 관심 있는 범위에서 직선 패턴이 적절한 근사라고 볼 수 있다면, xx가 1단위 증가할 때 yy의 예측값이 얼마나 변하는지를 알려줍니다.

다중 선형회귀: 예측변수 여러 개, 수치형 결과 1개

다중 선형회귀는 기본 아이디어는 같지만, 예측변수를 하나보다 더 많이 사용합니다.

y^=b0+b1x1+b2x2++bpxp\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

이 방법은 예측변수 하나만으로는 너무 단순할 때 유용합니다. 실제 결과는 여러 요인의 영향을 동시에 받는 경우가 많습니다.

여기서 해석의 핵심 변화가 중요합니다. b1b_1은 다른 포함된 예측변수들을 고정했을 때, x1x_1이 1단위 증가하면 yy의 예측값이 얼마나 변하는지를 뜻합니다.

이 “다른 예측변수를 고정한다”는 조건이 다중회귀를 단순한 일변량 비교들의 나열과 다르게 만듭니다.

로지스틱 회귀: 이진형 결과와 확률

로지스틱 회귀는 수치형 결과가 아니라 이진형 결과를 위한 방법입니다. 결과가 합격/불합격, 이탈/유지, 통과/실패 같은 형태라면 선형회귀는 보통 적절한 도구가 아닙니다.

로지스틱 회귀는 결과 자체를 직선으로 모형화하는 대신, 결과의 로그 오즈를 모형화합니다.

log(p1p)=b0+b1x1+b2x2++bpxp\log\left(\frac{p}{1-p}\right) = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

여기서 p=P(Y=1x1,x2,,xp)p = P(Y=1 \mid x_1, x_2, \ldots, x_p)입니다.

왼쪽은 확률 자체가 아니라 로그 오즈입니다. 이 설정이 중요한 이유는 확률이 반드시 0011 사이에 있어야 하기 때문입니다. 단순한 직선 모형은 1.21.20.1-0.1 같은 불가능한 값을 예측할 수 있지만, 로지스틱 회귀는 그렇지 않습니다.

예제로 보기: 점수 예측 vs 합격/불합격 예측

교사가 학생 성과를 분석하려고 한다고 해봅시다.

결과가 시험 점수이고 예측변수가 공부 시간 하나뿐이라면, 단순 선형모형은 다음과 같을 수 있습니다.

y^=42+5x\hat{y} = 42 + 5x

학생이 66시간 공부했다면 예측 점수는

y^=42+5(6)=72\hat{y} = 42 + 5(6) = 72

입니다.

여기서 기울기는 선형모형이 적절하게 맞는다면, 공부 시간이 1시간 늘어날 때마다 예측 점수가 55점 증가한다는 뜻입니다.

이제 교사가 수면 시간과 연습 퀴즈 횟수도 함께 넣는다고 해봅시다. 다중회귀모형은 다음과 같을 수 있습니다.

y^=20+4x1+2x2+1.5x3\hat{y} = 20 + 4x_1 + 2x_2 + 1.5x_3

여기서 x1x_1은 공부 시간, x2x_2는 수면 시간, x3x_3는 완료한 연습 퀴즈 수입니다.

이제 계수 44는 더 구체적인 의미를 가집니다. 수면 시간과 연습 퀴즈 수를 고정했을 때, 공부 시간이 1시간 늘어나면 예측 점수가 얼마나 변하는지를 나타냅니다.

이제 질문을 바꿔봅시다. 점수를 예측하는 대신 학생이 합격할 확률을 알고 싶다면, 결과는 이진형이 됩니다. 이 경우에는 로지스틱 회귀가 자연스러운 선택입니다.

log(p1p)=6+0.8x1+0.5x2\log\left(\frac{p}{1-p}\right) = -6 + 0.8x_1 + 0.5x_2

학생이 66시간 공부하고 77시간 잤다면,

6+0.8(6)+0.5(7)=2.3-6 + 0.8(6) + 0.5(7) = 2.3

이므로 예측 확률은

p=11+e2.30.91p = \frac{1}{1 + e^{-2.3}} \approx 0.91

입니다.

이 모형은 합격 확률이 약 91%91\%라고 예측합니다. 정확한 숫자 자체는 예시일 뿐입니다. 핵심은 결과가 점수에서 합격/불합격으로 바뀌면, 회귀모형의 계열도 함께 바뀌어야 한다는 점입니다.

회귀분석에서 흔한 실수

이진형 결과에 선형회귀 사용하기

결과가 00 또는 11뿐이라면, 로지스틱 회귀가 보통 더 적절합니다. 로지스틱 회귀는 확률을 위해 설계되었기 때문입니다. 선형회귀가 일부 특별한 상황에서는 근사로 쓰일 수 있지만, 확률 예측이 좋지 않을 수도 있습니다.

회귀를 인과관계의 증거로 받아들이기

회귀는 연관성을 설명하고 예측을 돕는 데 유용합니다. 하지만 그 자체만으로 어떤 변수를 바꾸면 결과가 바뀐다고 증명해 주지는 않습니다.

모형의 조건을 무시하기

계수는 선택한 모형이 충분히 잘 맞을 때만 기대한 의미를 가집니다. 선형회귀에서는 보통 직선 요약이 타당한지, 그리고 오차에 모형이 놓친 패턴이 남아 있지 않은지를 확인해야 합니다.

다중회귀 계수를 과도하게 해석하기

다중회귀에서 계수는 다른 포함된 예측변수들에 조건부로 해석됩니다. 중요한 변수가 빠져 있거나 예측변수들끼리 강하게 얽혀 있으면, 해석은 더 불안정해집니다.

회귀분석은 어디에 쓰일까

회귀는 변동을 설명하고 싶을 때, 조건부 관계를 추정하고 싶을 때, 또는 데이터로부터 예측하고 싶을 때 사용됩니다.

비즈니스 예측, 의학, 사회과학, 품질관리, 교육, 머신러닝 등에서 널리 볼 수 있습니다. 구체적인 형태는 결과변수에 따라 달라집니다. 수치형 결과는 선형모형으로, 이진형 결과는 로지스틱 모형으로 이어지는 경우가 많습니다.

올바른 회귀모형을 고르는 방법

먼저 이 두 가지를 물어보세요.

  1. 결과변수는 수치형인가, 이진형인가?
  2. 포함하려는 예측변수는 몇 개인가?

결과가 수치형이면 선형회귀부터 시작하세요. 예측변수가 하나면 단순 선형회귀이고, 여러 개면 다중 선형회귀입니다.

결과가 이진형이면 로지스틱 회귀부터 시작하세요.

이것이 모형이 좋다는 보장은 아니지만, 적어도 빠르게 올바른 모형 계열로 들어가게 해 줍니다.

비슷한 문제로 연습해 보기

작은 데이터셋 하나를 가지고 서로 다른 두 질문을 해보세요. 먼저 점수처럼 수치형 결과를 예측해 보세요. 그다음 결과를 합격/불합격처럼 이진형으로 바꿔 보세요. 이렇게 나란히 비교해 보면 회귀분석의 핵심이 가장 빠르게 이해됩니다.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →