Regressão Logística — Função Sigmoide e Classificação

A regressão logística é um modelo para classificação binária. Ela combina as variáveis de entrada em um escore linear, passa esse escore pela função sigmoide e produz um número entre $0$ e $1$ que é interpretado, sob o modelo ajustado, como a probabilidade estimada da classe positiva.

Apesar do nome, a regressão logística geralmente é usada para decidir entre duas classes, como aprovado/reprovado, spam/não spam ou inadimplência/sem inadimplência. A palavra "regressão" se refere à fórmula linear dentro do modelo, não à previsão de uma saída contínua.

Fórmula da regressão logística em resumo

A regressão logística binária usa

p(y=1 \mid x) = \sigma(z), \qquad z = \beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n

com a função sigmoide

\sigma(z) = \frac{1}{1 + e^{-z}}

A parte linear $z$ pode ser qualquer número real. A sigmoide comprime esse valor para $(0,1)$ , e é por isso que a saída pode ser usada como uma estimativa de probabilidade.

Por que a função sigmoide importa

Se você usasse o escore linear bruto $z$ como probabilidade, poderia obter valores impossíveis, como $1.7$ ou $-0.4$ . A sigmoide corrige isso ao mapear escores negativos grandes para valores próximos de $0$ , escores positivos grandes para valores próximos de $1$ e escores perto de $0$ para valores próximos de $0.5$ .

Isso dá uma leitura prática:

se $z$ é muito negativo, o modelo tende para a classe $0$
se $z$ está perto de $0$ , o modelo está incerto
se $z$ é muito positivo, o modelo tende para a classe $1$

A curva é mais inclinada perto de $z=0$ . Então, uma pequena mudança no escore pode alterar bastante a probabilidade perto de $0.5$ , mas muito menos quando a probabilidade já está perto de $0$ ou $1$ .

Exemplo resolvido de regressão logística

Suponha que um modelo use uma variável $x$ e tenha

z = -7 + 0.1x

Você pode pensar em $x$ como uma nota de prova e em $y=1$ como "aprovado". Os coeficientes aqui são apenas um exemplo para mostrar o funcionamento.

Se $x = 65$ , então

z = -7 + 0.1(65) = -0.5

Logo, a probabilidade prevista é

p(y=1 \mid x=65) = \sigma(-0.5) = \frac{1}{1 + e^{0.5}} \approx 0.378

Se $x = 80$ , então

z = -7 + 0.1(80) = 1

p(y=1 \mid x=80) = \sigma(1) = \frac{1}{1 + e^{-1}} \approx 0.731

Assim, o mesmo modelo dá cerca de $37.8\%$ de chance de aprovação em $x=65$ e cerca de $73.1\%$ em $x=80$ . O escore aumentou em $1.5$ , mas a saída final permaneceu entre $0$ e $1$ porque a sigmoide transforma o resultado em uma probabilidade.

Se você agora escolher um limiar de $0.5$ , o primeiro caso é classificado como classe $0$ e o segundo como classe $1$ . Esse último passo depende do limiar. A estimativa de probabilidade em si não depende.

Um atalho útil: com limiar $0.5$ , a classe muda exatamente quando $z=0$ , porque $\sigma(0)=0.5$ .

Como a regressão logística vira um classificador

A saída do modelo é uma estimativa de probabilidade. Uma regra de classificação é adicionada depois.

Por exemplo, com limiar $0.5$ :

preveja a classe $1$ se $p(y=1 \mid x) \ge 0.5$
preveja a classe $0$ se $p(y=1 \mid x) < 0.5$

Mas $0.5$ nem sempre é o limiar certo. Se falsos positivos e falsos negativos tiverem custos diferentes, ou se as classes forem muito desbalanceadas, outro limiar pode funcionar melhor.

O que significam os coeficientes

O sinal de um coeficiente indica a direção do efeito sobre o escore linear $z$ :

se $\beta_i > 0$ , aumentar $x_i$ eleva $z$ e tende a aumentar $p(y=1 \mid x)$
se $\beta_i < 0$ , aumentar $x_i$ reduz $z$ e tende a diminuir $p(y=1 \mid x)$

Essa parte é direta. O ponto mais sutil é que a probabilidade não muda linearmente com a variável, porque a curva sigmoide não é uma reta.

Na regressão logística padrão, o modelo linear está na escala de log-odds:

\log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n

Isso significa que cada aumento de uma unidade em uma variável altera os log-odds linearmente quando as outras variáveis são mantidas fixas. Isso é mais preciso do que dizer que a probabilidade muda por uma quantidade fixa.

Erros comuns em regressão logística

Tratar a saída como uma classe garantida

Uma previsão como $0.73$ não significa que o evento vai acontecer. Significa que o modelo atribui cerca de $73\%$ de probabilidade estimada à classe positiva para aquela entrada.

Supor que o limiar deve ser $0.5$

$0.5$ é comum, mas é uma escolha, não uma regra. O melhor limiar depende da aplicação.

Achar que a probabilidade muda linearmente

O escore $z$ é linear nas entradas, mas a probabilidade não é. Uma mudança de uma unidade em uma variável pode ter um efeito diferente perto de $p=0.5$ do que perto de $p=0.95$ .

Esquecer que o modelo é binário, a menos que seja estendido

A regressão logística básica lida com duas classes. Existem versões multiclasse, mas elas são extensões, não a mesma configuração binária escrita de outro jeito.

Quando a regressão logística é usada

A regressão logística é frequentemente usada quando o alvo é sim/não, como detecção de spam, presença de doença, churn de clientes, inadimplência em empréstimos ou resultados de aprovado/reprovado.

Ela continua popular porque é simples, rápida e razoavelmente interpretável. É especialmente útil quando você quer um classificador de base, quando o conjunto de dados não é muito grande ou quando precisa de probabilidades estimadas em vez de apenas rótulos rígidos.

Uma forma simples de visualizar

Pense na regressão logística como uma máquina de duas etapas:

Somar evidências com um escore linear.
Converter esse escore em probabilidade com a sigmoide.

Essa imagem já basta para entender a maioria dos exemplos introdutórios e para ver por que a regressão logística fica entre os modelos lineares e as tarefas de classificação.

Tente um problema parecido de regressão logística

Escolha um escore simples como

z = -3 + 0.5x

Calcule $\sigma(z)$ para alguns valores de $x$ , como $2$ , $6$ e $10$ . Observe como o escore linear muda de forma constante enquanto a probabilidade se curva em um formato de S. Depois, teste um limiar diferente e veja quando a classe prevista muda.

Precisa de ajuda com um problema?

Envie sua pergunta e receba uma solução verificada, passo a passo, em segundos.

Abrir GPAI Solver →