로지스틱 회귀는 이진 분류를 위한 모델입니다. 입력 특성들을 선형 점수로 결합한 뒤, 그 점수를 시그모이드 함수에 통과시켜 0011 사이의 값을 만듭니다. 이 값은 학습된 모델 아래에서 양성 클래스의 추정 확률로 해석됩니다.

이름에 "회귀"가 들어가지만, 로지스틱 회귀는 보통 합격/불합격, 스팸/정상 메일, 연체/비연체처럼 두 클래스 중 하나를 결정하는 데 사용됩니다. 여기서 "회귀"라는 말은 연속적인 값을 예측한다는 뜻이 아니라, 모델 내부의 선형 식을 가리킵니다.

로지스틱 회귀 공식 한눈에 보기

이진 로지스틱 회귀는 다음을 사용합니다.

p(y=1x)=σ(z),z=β0+β1x1++βnxnp(y=1 \mid x) = \sigma(z), \qquad z = \beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n

시그모이드 함수는

σ(z)=11+ez\sigma(z) = \frac{1}{1 + e^{-z}}

입니다.

선형 부분 zz는 어떤 실수값이든 될 수 있습니다. 시그모이드는 그 값을 (0,1)(0,1) 구간으로 눌러 주기 때문에, 출력을 확률 추정값으로 사용할 수 있습니다.

시그모이드 함수가 중요한 이유

원래의 선형 점수 zz를 그대로 확률로 사용하면 1.71.7이나 0.4-0.4처럼 말이 안 되는 값이 나올 수 있습니다. 시그모이드는 큰 음수 점수는 00에 가깝게, 큰 양수 점수는 11에 가깝게, 00 근처의 점수는 0.50.5에 가깝게 대응시켜 이 문제를 해결합니다.

그래서 실용적으로는 이렇게 읽을 수 있습니다.

  • zz가 매우 음수이면, 모델은 클래스 00 쪽으로 기웁니다
  • zz00에 가까우면, 모델은 확신이 낮습니다
  • zz가 매우 양수이면, 모델은 클래스 11 쪽으로 기웁니다

이 곡선은 z=0z=0 근처에서 가장 가파릅니다. 그래서 점수가 조금만 바뀌어도 0.50.5 근처에서는 확률이 크게 달라질 수 있지만, 확률이 이미 00이나 11에 가까울 때는 변화가 훨씬 작습니다.

로지스틱 회귀 예제

어떤 모델이 하나의 특성 xx를 사용하고 다음과 같다고 합시다.

z=7+0.1xz = -7 + 0.1x

여기서 xx는 시험 점수, y=1y=1은 "합격"이라고 생각할 수 있습니다. 계수는 단지 작동 방식을 보여 주기 위한 예시입니다.

x=65x = 65이면,

z=7+0.1(65)=0.5z = -7 + 0.1(65) = -0.5

따라서 예측 확률은

p(y=1x=65)=σ(0.5)=11+e0.50.378p(y=1 \mid x=65) = \sigma(-0.5) = \frac{1}{1 + e^{0.5}} \approx 0.378

입니다.

x=80x = 80이면,

z=7+0.1(80)=1z = -7 + 0.1(80) = 1

그리고

p(y=1x=80)=σ(1)=11+e10.731p(y=1 \mid x=80) = \sigma(1) = \frac{1}{1 + e^{-1}} \approx 0.731

입니다.

즉 같은 모델이라도 x=65x=65에서는 합격 확률이 약 37.8%37.8\%, x=80x=80에서는 약 73.1%73.1\%가 됩니다. 점수는 1.51.5만큼 올라갔지만, 시그모이드가 결과를 확률 형태로 굽혀 주기 때문에 최종 출력은 여전히 0011 사이에 머뭅니다.

이제 임곗값을 0.50.5로 정하면 첫 번째 경우는 클래스 00, 두 번째 경우는 클래스 11로 분류됩니다. 이 마지막 단계는 임곗값에 따라 달라집니다. 확률 추정값 자체는 그렇지 않습니다.

유용한 요령 하나는, 임곗값이 0.50.5일 때는 z=0z=0에서 정확히 클래스가 바뀐다는 점입니다. 왜냐하면 σ(0)=0.5\sigma(0)=0.5이기 때문입니다.

로지스틱 회귀가 분류기가 되는 방식

모델의 출력은 확률 추정값입니다. 분류 규칙은 그다음에 추가됩니다.

예를 들어 임곗값이 0.50.5라면,

  • p(y=1x)0.5p(y=1 \mid x) \ge 0.5이면 클래스 11로 예측합니다
  • p(y=1x)<0.5p(y=1 \mid x) < 0.5이면 클래스 00으로 예측합니다

하지만 0.50.5가 항상 올바른 임곗값은 아닙니다. 거짓 양성과 거짓 음성의 비용이 다르거나 클래스 불균형이 심하면, 다른 임곗값이 더 잘 맞을 수 있습니다.

계수의 의미

계수의 부호는 선형 점수 zz에 미치는 영향의 방향을 알려 줍니다.

  • βi>0\beta_i > 0이면, xix_i가 증가할수록 zz가 커지고 p(y=1x)p(y=1 \mid x)도 커지는 경향이 있습니다
  • βi<0\beta_i < 0이면, xix_i가 증가할수록 zz가 작아지고 p(y=1x)p(y=1 \mid x)도 작아지는 경향이 있습니다

이 부분은 비교적 직관적입니다. 다만 중요한 점은, 시그모이드 곡선이 직선이 아니기 때문에 확률은 특성에 따라 선형적으로 변하지 않는다는 것입니다.

표준 로지스틱 회귀에서는 선형 모델이 로그 오즈(log-odds) 스케일 위에 있습니다.

log(p1p)=β0+β1x1++βnxn\log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n

이는 다른 특성들을 고정했을 때, 어떤 특성이 1단위 증가하면 로그 오즈가 선형적으로 변한다는 뜻입니다. 단순히 확률이 일정한 양만큼 변한다고 말하는 것보다 더 정확한 설명입니다.

로지스틱 회귀에서 흔한 실수

출력을 확정된 클래스로 받아들이기

0.730.73 같은 예측값은 사건이 반드시 일어난다는 뜻이 아닙니다. 그 입력에 대해 모델이 양성 클래스의 추정 확률을 약 73%73\%로 본다는 뜻입니다.

임곗값은 반드시 0.50.5라고 가정하기

0.50.5는 흔히 쓰이지만, 선택일 뿐 법칙은 아닙니다. 가장 좋은 임곗값은 적용 분야에 따라 달라집니다.

확률이 선형적으로 변한다고 생각하기

점수 zz는 입력에 대해 선형이지만, 확률은 그렇지 않습니다. 어떤 특성이 1단위 변할 때의 영향은 p=0.5p=0.5 근처와 p=0.95p=0.95 근처에서 다를 수 있습니다.

확장하지 않으면 이진 모델이라는 점을 잊기

기본 로지스틱 회귀는 두 클래스만 다룹니다. 다중 클래스 버전도 있지만, 그것은 같은 이진 설정을 다른 방식으로 쓴 것이 아니라 확장된 형태입니다.

로지스틱 회귀는 언제 쓰일까

로지스틱 회귀는 목표값이 예/아니오일 때 자주 사용됩니다. 예를 들어 스팸 탐지, 질병 유무, 고객 이탈, 대출 연체, 합격/불합격 같은 문제입니다.

이 방법은 단순하고 빠르며 어느 정도 해석이 가능하기 때문에 여전히 널리 쓰입니다. 특히 기본 성능을 보는 기준 분류기가 필요할 때, 데이터셋이 아주 크지 않을 때, 또는 단순한 레이블보다 추정 확률이 필요할 때 유용합니다.

쉽게 떠올리는 방법

로지스틱 회귀를 두 단계 기계라고 생각해 보세요.

  1. 선형 점수로 증거를 합칩니다.
  2. 그 점수를 시그모이드로 확률로 바꿉니다.

이 그림만으로도 대부분의 입문 예제를 이해할 수 있고, 로지스틱 회귀가 선형 모델과 분류 문제 사이 어디쯤에 있는지도 감을 잡을 수 있습니다.

비슷한 로지스틱 회귀 문제를 직접 해보기

다음과 같은 간단한 점수를 잡아 보세요.

z=3+0.5xz = -3 + 0.5x

xx22, 66, 1010 같은 값을 넣어 σ(z)\sigma(z)를 계산해 보세요. 선형 점수는 일정하게 변하지만, 확률은 S자 곡선을 따라 휘어지는 모습을 볼 수 있습니다. 그다음 다른 임곗값도 정해 보고, 예측 클래스가 언제 바뀌는지 확인해 보세요.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →