A regressão logística é um modelo para classificação binária. Ela combina as variáveis de entrada em um escore linear, passa esse escore pela função sigmoide e produz um número entre e que é interpretado, sob o modelo ajustado, como a probabilidade estimada da classe positiva.
Apesar do nome, a regressão logística geralmente é usada para decidir entre duas classes, como aprovado/reprovado, spam/não spam ou inadimplência/sem inadimplência. A palavra "regressão" se refere à fórmula linear dentro do modelo, não à previsão de uma saída contínua.
Fórmula da regressão logística em resumo
A regressão logística binária usa
com a função sigmoide
A parte linear pode ser qualquer número real. A sigmoide comprime esse valor para , e é por isso que a saída pode ser usada como uma estimativa de probabilidade.
Por que a função sigmoide importa
Se você usasse o escore linear bruto como probabilidade, poderia obter valores impossíveis, como ou . A sigmoide corrige isso ao mapear escores negativos grandes para valores próximos de , escores positivos grandes para valores próximos de e escores perto de para valores próximos de .
Isso dá uma leitura prática:
- se é muito negativo, o modelo tende para a classe
- se está perto de , o modelo está incerto
- se é muito positivo, o modelo tende para a classe
A curva é mais inclinada perto de . Então, uma pequena mudança no escore pode alterar bastante a probabilidade perto de , mas muito menos quando a probabilidade já está perto de ou .
Exemplo resolvido de regressão logística
Suponha que um modelo use uma variável e tenha
Você pode pensar em como uma nota de prova e em como "aprovado". Os coeficientes aqui são apenas um exemplo para mostrar o funcionamento.
Se , então
Logo, a probabilidade prevista é
Se , então
e
Assim, o mesmo modelo dá cerca de de chance de aprovação em e cerca de em . O escore aumentou em , mas a saída final permaneceu entre e porque a sigmoide transforma o resultado em uma probabilidade.
Se você agora escolher um limiar de , o primeiro caso é classificado como classe e o segundo como classe . Esse último passo depende do limiar. A estimativa de probabilidade em si não depende.
Um atalho útil: com limiar , a classe muda exatamente quando , porque .
Como a regressão logística vira um classificador
A saída do modelo é uma estimativa de probabilidade. Uma regra de classificação é adicionada depois.
Por exemplo, com limiar :
- preveja a classe se
- preveja a classe se
Mas nem sempre é o limiar certo. Se falsos positivos e falsos negativos tiverem custos diferentes, ou se as classes forem muito desbalanceadas, outro limiar pode funcionar melhor.
O que significam os coeficientes
O sinal de um coeficiente indica a direção do efeito sobre o escore linear :
- se , aumentar eleva e tende a aumentar
- se , aumentar reduz e tende a diminuir
Essa parte é direta. O ponto mais sutil é que a probabilidade não muda linearmente com a variável, porque a curva sigmoide não é uma reta.
Na regressão logística padrão, o modelo linear está na escala de log-odds:
Isso significa que cada aumento de uma unidade em uma variável altera os log-odds linearmente quando as outras variáveis são mantidas fixas. Isso é mais preciso do que dizer que a probabilidade muda por uma quantidade fixa.
Erros comuns em regressão logística
Tratar a saída como uma classe garantida
Uma previsão como não significa que o evento vai acontecer. Significa que o modelo atribui cerca de de probabilidade estimada à classe positiva para aquela entrada.
Supor que o limiar deve ser
é comum, mas é uma escolha, não uma regra. O melhor limiar depende da aplicação.
Achar que a probabilidade muda linearmente
O escore é linear nas entradas, mas a probabilidade não é. Uma mudança de uma unidade em uma variável pode ter um efeito diferente perto de do que perto de .
Esquecer que o modelo é binário, a menos que seja estendido
A regressão logística básica lida com duas classes. Existem versões multiclasse, mas elas são extensões, não a mesma configuração binária escrita de outro jeito.
Quando a regressão logística é usada
A regressão logística é frequentemente usada quando o alvo é sim/não, como detecção de spam, presença de doença, churn de clientes, inadimplência em empréstimos ou resultados de aprovado/reprovado.
Ela continua popular porque é simples, rápida e razoavelmente interpretável. É especialmente útil quando você quer um classificador de base, quando o conjunto de dados não é muito grande ou quando precisa de probabilidades estimadas em vez de apenas rótulos rígidos.
Uma forma simples de visualizar
Pense na regressão logística como uma máquina de duas etapas:
- Somar evidências com um escore linear.
- Converter esse escore em probabilidade com a sigmoide.
Essa imagem já basta para entender a maioria dos exemplos introdutórios e para ver por que a regressão logística fica entre os modelos lineares e as tarefas de classificação.
Tente um problema parecido de regressão logística
Escolha um escore simples como
Calcule para alguns valores de , como , e . Observe como o escore linear muda de forma constante enquanto a probabilidade se curva em um formato de S. Depois, teste um limiar diferente e veja quando a classe prevista muda.
Precisa de ajuda com um problema?
Envie sua pergunta e receba uma solução verificada, passo a passo, em segundos.
Abrir GPAI Solver →