로지스틱 회귀는 이진 분류를 위한 모델입니다. 입력 특성들을 선형 점수로 결합한 뒤, 그 점수를 시그모이드 함수에 통과시켜 과 사이의 값을 만듭니다. 이 값은 학습된 모델 아래에서 양성 클래스의 추정 확률로 해석됩니다.
이름에 "회귀"가 들어가지만, 로지스틱 회귀는 보통 합격/불합격, 스팸/정상 메일, 연체/비연체처럼 두 클래스 중 하나를 결정하는 데 사용됩니다. 여기서 "회귀"라는 말은 연속적인 값을 예측한다는 뜻이 아니라, 모델 내부의 선형 식을 가리킵니다.
로지스틱 회귀 공식 한눈에 보기
이진 로지스틱 회귀는 다음을 사용합니다.
시그모이드 함수는
입니다.
선형 부분 는 어떤 실수값이든 될 수 있습니다. 시그모이드는 그 값을 구간으로 눌러 주기 때문에, 출력을 확률 추정값으로 사용할 수 있습니다.
시그모이드 함수가 중요한 이유
원래의 선형 점수 를 그대로 확률로 사용하면 이나 처럼 말이 안 되는 값이 나올 수 있습니다. 시그모이드는 큰 음수 점수는 에 가깝게, 큰 양수 점수는 에 가깝게, 근처의 점수는 에 가깝게 대응시켜 이 문제를 해결합니다.
그래서 실용적으로는 이렇게 읽을 수 있습니다.
- 가 매우 음수이면, 모델은 클래스 쪽으로 기웁니다
- 가 에 가까우면, 모델은 확신이 낮습니다
- 가 매우 양수이면, 모델은 클래스 쪽으로 기웁니다
이 곡선은 근처에서 가장 가파릅니다. 그래서 점수가 조금만 바뀌어도 근처에서는 확률이 크게 달라질 수 있지만, 확률이 이미 이나 에 가까울 때는 변화가 훨씬 작습니다.
로지스틱 회귀 예제
어떤 모델이 하나의 특성 를 사용하고 다음과 같다고 합시다.
여기서 는 시험 점수, 은 "합격"이라고 생각할 수 있습니다. 계수는 단지 작동 방식을 보여 주기 위한 예시입니다.
이면,
따라서 예측 확률은
입니다.
이면,
그리고
입니다.
즉 같은 모델이라도 에서는 합격 확률이 약 , 에서는 약 가 됩니다. 점수는 만큼 올라갔지만, 시그모이드가 결과를 확률 형태로 굽혀 주기 때문에 최종 출력은 여전히 과 사이에 머뭅니다.
이제 임곗값을 로 정하면 첫 번째 경우는 클래스 , 두 번째 경우는 클래스 로 분류됩니다. 이 마지막 단계는 임곗값에 따라 달라집니다. 확률 추정값 자체는 그렇지 않습니다.
유용한 요령 하나는, 임곗값이 일 때는 에서 정확히 클래스가 바뀐다는 점입니다. 왜냐하면 이기 때문입니다.
로지스틱 회귀가 분류기가 되는 방식
모델의 출력은 확률 추정값입니다. 분류 규칙은 그다음에 추가됩니다.
예를 들어 임곗값이 라면,
- 이면 클래스 로 예측합니다
- 이면 클래스 으로 예측합니다
하지만 가 항상 올바른 임곗값은 아닙니다. 거짓 양성과 거짓 음성의 비용이 다르거나 클래스 불균형이 심하면, 다른 임곗값이 더 잘 맞을 수 있습니다.
계수의 의미
계수의 부호는 선형 점수 에 미치는 영향의 방향을 알려 줍니다.
- 이면, 가 증가할수록 가 커지고 도 커지는 경향이 있습니다
- 이면, 가 증가할수록 가 작아지고 도 작아지는 경향이 있습니다
이 부분은 비교적 직관적입니다. 다만 중요한 점은, 시그모이드 곡선이 직선이 아니기 때문에 확률은 특성에 따라 선형적으로 변하지 않는다는 것입니다.
표준 로지스틱 회귀에서는 선형 모델이 로그 오즈(log-odds) 스케일 위에 있습니다.
이는 다른 특성들을 고정했을 때, 어떤 특성이 1단위 증가하면 로그 오즈가 선형적으로 변한다는 뜻입니다. 단순히 확률이 일정한 양만큼 변한다고 말하는 것보다 더 정확한 설명입니다.
로지스틱 회귀에서 흔한 실수
출력을 확정된 클래스로 받아들이기
같은 예측값은 사건이 반드시 일어난다는 뜻이 아닙니다. 그 입력에 대해 모델이 양성 클래스의 추정 확률을 약 로 본다는 뜻입니다.
임곗값은 반드시 라고 가정하기
는 흔히 쓰이지만, 선택일 뿐 법칙은 아닙니다. 가장 좋은 임곗값은 적용 분야에 따라 달라집니다.
확률이 선형적으로 변한다고 생각하기
점수 는 입력에 대해 선형이지만, 확률은 그렇지 않습니다. 어떤 특성이 1단위 변할 때의 영향은 근처와 근처에서 다를 수 있습니다.
확장하지 않으면 이진 모델이라는 점을 잊기
기본 로지스틱 회귀는 두 클래스만 다룹니다. 다중 클래스 버전도 있지만, 그것은 같은 이진 설정을 다른 방식으로 쓴 것이 아니라 확장된 형태입니다.
로지스틱 회귀는 언제 쓰일까
로지스틱 회귀는 목표값이 예/아니오일 때 자주 사용됩니다. 예를 들어 스팸 탐지, 질병 유무, 고객 이탈, 대출 연체, 합격/불합격 같은 문제입니다.
이 방법은 단순하고 빠르며 어느 정도 해석이 가능하기 때문에 여전히 널리 쓰입니다. 특히 기본 성능을 보는 기준 분류기가 필요할 때, 데이터셋이 아주 크지 않을 때, 또는 단순한 레이블보다 추정 확률이 필요할 때 유용합니다.
쉽게 떠올리는 방법
로지스틱 회귀를 두 단계 기계라고 생각해 보세요.
- 선형 점수로 증거를 합칩니다.
- 그 점수를 시그모이드로 확률로 바꿉니다.
이 그림만으로도 대부분의 입문 예제를 이해할 수 있고, 로지스틱 회귀가 선형 모델과 분류 문제 사이 어디쯤에 있는지도 감을 잡을 수 있습니다.
비슷한 로지스틱 회귀 문제를 직접 해보기
다음과 같은 간단한 점수를 잡아 보세요.
에 , , 같은 값을 넣어 를 계산해 보세요. 선형 점수는 일정하게 변하지만, 확률은 S자 곡선을 따라 휘어지는 모습을 볼 수 있습니다. 그다음 다른 임곗값도 정해 보고, 예측 클래스가 언제 바뀌는지 확인해 보세요.