A análise de regressão explica como um resultado muda à medida que um ou mais preditores mudam. Use regressão linear simples para um preditor e um resultado numérico, regressão linear múltipla para vários preditores e um resultado numérico, e regressão logística para um resultado binário, como aprovado/reprovado.
Essa distinção responde rapidamente à principal dúvida de busca:
- Regressão linear simples: um preditor, resultado numérico.
- Regressão linear múltipla: vários preditores, resultado numérico.
- Regressão logística: resultado binário, como sim/não, aprovado/reprovado ou clicou/não clicou.
Depois disso, o verdadeiro trabalho é a interpretação. Um coeficiente só significa o que você pensa que significa se o modelo corresponder ao tipo de resultado e se ajustar aos dados de forma razoavelmente boa.
O que a análise de regressão faz
Regressão não é apenas traçar uma linha entre pontos. Ela constrói uma regra que liga preditores a um resultado esperado, para que você possa explicar padrões ou fazer previsões.
Na regressão linear, essa regra é um modelo de linha reta para o valor esperado do resultado. Na regressão logística, o modelo é construído para probabilidades, então os valores previstos ficam entre e .
Regressão linear simples: um preditor, resultado numérico
A regressão linear simples usa um preditor e um resultado numérico :
Aqui, é o resultado previsto, é o intercepto e é o coeficiente angular.
O coeficiente angular informa a mudança prevista em para um aumento de uma unidade em , se um padrão de linha reta for uma aproximação razoável no intervalo que importa para você.
Regressão linear múltipla: vários preditores, um resultado numérico
A regressão linear múltipla mantém a mesma ideia básica, mas usa mais de um preditor:
Isso é útil quando um único preditor é simples demais. Resultados reais muitas vezes dependem de vários fatores ao mesmo tempo.
A principal mudança na interpretação é importante: é a mudança prevista em para um aumento de uma unidade em , enquanto os outros preditores incluídos são mantidos fixos.
Essa condição de “manter os outros preditores fixos” é o que torna a regressão múltipla diferente de uma série de comparações com uma única variável.
Regressão logística: resultados binários e probabilidades
A regressão logística é para um resultado binário, não numérico. Se o resultado for algo como admitido ou não admitido, cancelou ou permaneceu, ou aprovado ou reprovado, a regressão linear geralmente é a ferramenta errada.
Em vez de modelar o próprio resultado como uma linha reta, a regressão logística modela o logaritmo das chances do resultado:
onde .
O lado esquerdo é o logaritmo das chances, não a própria probabilidade. Isso importa porque probabilidades precisam ficar entre e : um modelo simples de linha reta pode prever valores impossíveis como ou , mas a regressão logística não.
Exemplo resolvido: prevendo uma nota vs prevendo aprovação/reprovação
Suponha que um professor queira estudar o desempenho dos alunos.
Se o resultado for a nota da prova e o único preditor for horas de estudo, um modelo linear simples pode ser
Se um aluno estuda horas, a nota prevista é
Aqui, o coeficiente angular diz que a nota prevista aumenta em pontos para cada hora extra de estudo, se o modelo linear for um ajuste razoável.
Agora suponha que o professor também inclua horas de sono e número de simulados. Um modelo de regressão múltipla pode ser
onde é horas de estudo, é horas de sono e é simulados concluídos.
O coeficiente agora tem um significado mais específico: é a mudança prevista na nota para uma hora a mais de estudo, mantendo fixos o sono e os simulados.
Agora mude a pergunta. Em vez de prever uma nota, suponha que o professor queira a probabilidade de um aluno ser aprovado. Isso torna o resultado binário, então a regressão logística é a escolha natural:
Se um aluno estuda horas e dorme horas, então
logo, a probabilidade prevista é
Esse modelo prevê cerca de de chance de aprovação. Os números exatos são apenas um exemplo. A ideia principal é que, quando o resultado muda de uma nota para aprovado/reprovado, a família de regressão também deve mudar.
Erros comuns na análise de regressão
Usar regressão linear para um resultado binário
Se o resultado só pode ser ou , a regressão logística geralmente é mais apropriada porque foi projetada para probabilidades. A regressão linear pode ser usada em alguns contextos especiais como aproximação, mas também pode produzir previsões de probabilidade ruins.
Tratar regressão como prova de causalidade
A regressão pode descrever associação e apoiar previsões. Ela não prova, por si só, que mudar uma variável causa mudança no resultado.
Ignorar as condições do modelo
Um coeficiente só significa o que você pensa que significa se o modelo escolhido for um ajuste razoável. Na regressão linear, isso muitas vezes significa verificar se um resumo em linha reta faz sentido e se os erros mostram algum padrão que o modelo não captou.
Interpretar demais os coeficientes da regressão múltipla
Na regressão múltipla, um coeficiente é condicional aos outros preditores incluídos. Se variáveis importantes estiverem faltando, ou se os preditores estiverem fortemente entrelaçados entre si, a interpretação se torna menos estável.
Onde a análise de regressão é usada
A regressão é usada quando você quer explicar variação, estimar relações condicionais ou fazer previsões a partir de dados.
Você vai vê-la em previsão de negócios, medicina, ciências sociais, controle de qualidade, educação e aprendizado de máquina. A forma exata depende do resultado: resultados numéricos geralmente levam a modelos lineares, enquanto resultados binários geralmente levam a modelos logísticos.
Como escolher o modelo de regressão certo
Faça estas duas perguntas primeiro:
- O resultado é numérico ou binário?
- Quantos preditores eu quero incluir?
Se o resultado for numérico, comece com regressão linear. Se houver um preditor, é regressão linear simples. Se houver vários, é regressão linear múltipla.
Se o resultado for binário, comece com regressão logística.
Isso não garante que o modelo seja bom, mas coloca você rapidamente na família de modelos correta.
Tente um problema parecido
Pegue um pequeno conjunto de dados e faça duas perguntas diferentes sobre ele. Primeiro, preveja um resultado numérico, como uma nota. Depois, converta o resultado em uma versão binária, como aprovado ou reprovado. Essa comparação lado a lado é uma das formas mais rápidas de fazer a análise de regressão realmente fazer sentido.
Precisa de ajuda com um problema?
Envie sua pergunta e receba uma solução verificada, passo a passo, em segundos.
Abrir GPAI Solver →