로지스틱 회귀 — 시그모이드 함수와 분류

로지스틱 회귀는 이진 분류를 위한 모델입니다. 입력 특성들을 선형 점수로 결합한 뒤, 그 점수를 시그모이드 함수에 통과시켜 $0$ 과 $1$ 사이의 값을 만듭니다. 이 값은 학습된 모델 아래에서 양성 클래스의 추정 확률로 해석됩니다.

이름에 "회귀"가 들어가지만, 로지스틱 회귀는 보통 합격/불합격, 스팸/정상 메일, 연체/비연체처럼 두 클래스 중 하나를 결정하는 데 사용됩니다. 여기서 "회귀"라는 말은 연속적인 값을 예측한다는 뜻이 아니라, 모델 내부의 선형 식을 가리킵니다.

로지스틱 회귀 공식 한눈에 보기

이진 로지스틱 회귀는 다음을 사용합니다.

p(y=1 \mid x) = \sigma(z), \qquad z = \beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n

시그모이드 함수는

\sigma(z) = \frac{1}{1 + e^{-z}}

입니다.

선형 부분 $z$ 는 어떤 실수값이든 될 수 있습니다. 시그모이드는 그 값을 $(0,1)$ 구간으로 눌러 주기 때문에, 출력을 확률 추정값으로 사용할 수 있습니다.

시그모이드 함수가 중요한 이유

원래의 선형 점수 $z$ 를 그대로 확률로 사용하면 $1.7$ 이나 $-0.4$ 처럼 말이 안 되는 값이 나올 수 있습니다. 시그모이드는 큰 음수 점수는 $0$ 에 가깝게, 큰 양수 점수는 $1$ 에 가깝게, $0$ 근처의 점수는 $0.5$ 에 가깝게 대응시켜 이 문제를 해결합니다.

그래서 실용적으로는 이렇게 읽을 수 있습니다.

$z$ 가 매우 음수이면, 모델은 클래스 $0$ 쪽으로 기웁니다
$z$ 가 $0$ 에 가까우면, 모델은 확신이 낮습니다
$z$ 가 매우 양수이면, 모델은 클래스 $1$ 쪽으로 기웁니다

이 곡선은 $z=0$ 근처에서 가장 가파릅니다. 그래서 점수가 조금만 바뀌어도 $0.5$ 근처에서는 확률이 크게 달라질 수 있지만, 확률이 이미 $0$ 이나 $1$ 에 가까울 때는 변화가 훨씬 작습니다.

로지스틱 회귀 예제

어떤 모델이 하나의 특성 $x$ 를 사용하고 다음과 같다고 합시다.

z = -7 + 0.1x

여기서 $x$ 는 시험 점수, $y=1$ 은 "합격"이라고 생각할 수 있습니다. 계수는 단지 작동 방식을 보여 주기 위한 예시입니다.

$x = 65$ 이면,

z = -7 + 0.1(65) = -0.5

따라서 예측 확률은

p(y=1 \mid x=65) = \sigma(-0.5) = \frac{1}{1 + e^{0.5}} \approx 0.378

입니다.

$x = 80$ 이면,

z = -7 + 0.1(80) = 1

그리고

p(y=1 \mid x=80) = \sigma(1) = \frac{1}{1 + e^{-1}} \approx 0.731

입니다.

즉 같은 모델이라도 $x=65$ 에서는 합격 확률이 약 $37.8\%$ , $x=80$ 에서는 약 $73.1\%$ 가 됩니다. 점수는 $1.5$ 만큼 올라갔지만, 시그모이드가 결과를 확률 형태로 굽혀 주기 때문에 최종 출력은 여전히 $0$ 과 $1$ 사이에 머뭅니다.

이제 임곗값을 $0.5$ 로 정하면 첫 번째 경우는 클래스 $0$ , 두 번째 경우는 클래스 $1$ 로 분류됩니다. 이 마지막 단계는 임곗값에 따라 달라집니다. 확률 추정값 자체는 그렇지 않습니다.

유용한 요령 하나는, 임곗값이 $0.5$ 일 때는 $z=0$ 에서 정확히 클래스가 바뀐다는 점입니다. 왜냐하면 $\sigma(0)=0.5$ 이기 때문입니다.

로지스틱 회귀가 분류기가 되는 방식

모델의 출력은 확률 추정값입니다. 분류 규칙은 그다음에 추가됩니다.

예를 들어 임곗값이 $0.5$ 라면,

$p(y=1 \mid x) \ge 0.5$ 이면 클래스 $1$ 로 예측합니다
$p(y=1 \mid x) < 0.5$ 이면 클래스 $0$ 으로 예측합니다

하지만 $0.5$ 가 항상 올바른 임곗값은 아닙니다. 거짓 양성과 거짓 음성의 비용이 다르거나 클래스 불균형이 심하면, 다른 임곗값이 더 잘 맞을 수 있습니다.

계수의 의미

계수의 부호는 선형 점수 $z$ 에 미치는 영향의 방향을 알려 줍니다.

$\beta_i > 0$ 이면, $x_i$ 가 증가할수록 $z$ 가 커지고 $p(y=1 \mid x)$ 도 커지는 경향이 있습니다
$\beta_i < 0$ 이면, $x_i$ 가 증가할수록 $z$ 가 작아지고 $p(y=1 \mid x)$ 도 작아지는 경향이 있습니다

이 부분은 비교적 직관적입니다. 다만 중요한 점은, 시그모이드 곡선이 직선이 아니기 때문에 확률은 특성에 따라 선형적으로 변하지 않는다는 것입니다.

표준 로지스틱 회귀에서는 선형 모델이 로그 오즈(log-odds) 스케일 위에 있습니다.

\log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n

이는 다른 특성들을 고정했을 때, 어떤 특성이 1단위 증가하면 로그 오즈가 선형적으로 변한다는 뜻입니다. 단순히 확률이 일정한 양만큼 변한다고 말하는 것보다 더 정확한 설명입니다.

로지스틱 회귀에서 흔한 실수

출력을 확정된 클래스로 받아들이기

$0.73$ 같은 예측값은 사건이 반드시 일어난다는 뜻이 아닙니다. 그 입력에 대해 모델이 양성 클래스의 추정 확률을 약 $73\%$ 로 본다는 뜻입니다.

임곗값은 반드시 $0.5$ 라고 가정하기

$0.5$ 는 흔히 쓰이지만, 선택일 뿐 법칙은 아닙니다. 가장 좋은 임곗값은 적용 분야에 따라 달라집니다.

확률이 선형적으로 변한다고 생각하기

점수 $z$ 는 입력에 대해 선형이지만, 확률은 그렇지 않습니다. 어떤 특성이 1단위 변할 때의 영향은 $p=0.5$ 근처와 $p=0.95$ 근처에서 다를 수 있습니다.

확장하지 않으면 이진 모델이라는 점을 잊기

기본 로지스틱 회귀는 두 클래스만 다룹니다. 다중 클래스 버전도 있지만, 그것은 같은 이진 설정을 다른 방식으로 쓴 것이 아니라 확장된 형태입니다.

로지스틱 회귀는 언제 쓰일까

로지스틱 회귀는 목표값이 예/아니오일 때 자주 사용됩니다. 예를 들어 스팸 탐지, 질병 유무, 고객 이탈, 대출 연체, 합격/불합격 같은 문제입니다.

이 방법은 단순하고 빠르며 어느 정도 해석이 가능하기 때문에 여전히 널리 쓰입니다. 특히 기본 성능을 보는 기준 분류기가 필요할 때, 데이터셋이 아주 크지 않을 때, 또는 단순한 레이블보다 추정 확률이 필요할 때 유용합니다.

쉽게 떠올리는 방법

로지스틱 회귀를 두 단계 기계라고 생각해 보세요.

선형 점수로 증거를 합칩니다.
그 점수를 시그모이드로 확률로 바꿉니다.

이 그림만으로도 대부분의 입문 예제를 이해할 수 있고, 로지스틱 회귀가 선형 모델과 분류 문제 사이 어디쯤에 있는지도 감을 잡을 수 있습니다.

비슷한 로지스틱 회귀 문제를 직접 해보기

다음과 같은 간단한 점수를 잡아 보세요.

z = -3 + 0.5x

$x$ 에 $2$ , $6$ , $10$ 같은 값을 넣어 $\sigma(z)$ 를 계산해 보세요. 선형 점수는 일정하게 변하지만, 확률은 S자 곡선을 따라 휘어지는 모습을 볼 수 있습니다. 그다음 다른 임곗값도 정해 보고, 예측 클래스가 언제 바뀌는지 확인해 보세요.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →

로지스틱 회귀 — 시그모이드 함수와 분류

로지스틱 회귀 공식 한눈에 보기

시그모이드 함수가 중요한 이유

로지스틱 회귀 예제

로지스틱 회귀가 분류기가 되는 방식

계수의 의미

로지스틱 회귀에서 흔한 실수

출력을 확정된 클래스로 받아들이기

임곗값은 반드시 0.50.50.5라고 가정하기

확률이 선형적으로 변한다고 생각하기

확장하지 않으면 이진 모델이라는 점을 잊기

로지스틱 회귀는 언제 쓰일까

쉽게 떠올리는 방법

비슷한 로지스틱 회귀 문제를 직접 해보기

문제 풀이가 필요하신가요?

임곗값은 반드시 $0.5$ 라고 가정하기