A análise de regressão explica como um resultado muda à medida que um ou mais preditores mudam. Use regressão linear simples para um preditor e um resultado numérico, regressão linear múltipla para vários preditores e um resultado numérico, e regressão logística para um resultado binário, como aprovado/reprovado.

Essa distinção responde rapidamente à principal dúvida de busca:

  • Regressão linear simples: um preditor, resultado numérico.
  • Regressão linear múltipla: vários preditores, resultado numérico.
  • Regressão logística: resultado binário, como sim/não, aprovado/reprovado ou clicou/não clicou.

Depois disso, o verdadeiro trabalho é a interpretação. Um coeficiente só significa o que você pensa que significa se o modelo corresponder ao tipo de resultado e se ajustar aos dados de forma razoavelmente boa.

O que a análise de regressão faz

Regressão não é apenas traçar uma linha entre pontos. Ela constrói uma regra que liga preditores a um resultado esperado, para que você possa explicar padrões ou fazer previsões.

Na regressão linear, essa regra é um modelo de linha reta para o valor esperado do resultado. Na regressão logística, o modelo é construído para probabilidades, então os valores previstos ficam entre 00 e 11.

Regressão linear simples: um preditor, resultado numérico

A regressão linear simples usa um preditor xx e um resultado numérico yy:

y^=b0+b1x\hat{y} = b_0 + b_1x

Aqui, y^\hat{y} é o resultado previsto, b0b_0 é o intercepto e b1b_1 é o coeficiente angular.

O coeficiente angular b1b_1 informa a mudança prevista em yy para um aumento de uma unidade em xx, se um padrão de linha reta for uma aproximação razoável no intervalo que importa para você.

Regressão linear múltipla: vários preditores, um resultado numérico

A regressão linear múltipla mantém a mesma ideia básica, mas usa mais de um preditor:

y^=b0+b1x1+b2x2++bpxp\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

Isso é útil quando um único preditor é simples demais. Resultados reais muitas vezes dependem de vários fatores ao mesmo tempo.

A principal mudança na interpretação é importante: b1b_1 é a mudança prevista em yy para um aumento de uma unidade em x1x_1, enquanto os outros preditores incluídos são mantidos fixos.

Essa condição de “manter os outros preditores fixos” é o que torna a regressão múltipla diferente de uma série de comparações com uma única variável.

Regressão logística: resultados binários e probabilidades

A regressão logística é para um resultado binário, não numérico. Se o resultado for algo como admitido ou não admitido, cancelou ou permaneceu, ou aprovado ou reprovado, a regressão linear geralmente é a ferramenta errada.

Em vez de modelar o próprio resultado como uma linha reta, a regressão logística modela o logaritmo das chances do resultado:

log(p1p)=b0+b1x1+b2x2++bpxp\log\left(\frac{p}{1-p}\right) = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

onde p=P(Y=1x1,x2,,xp)p = P(Y=1 \mid x_1, x_2, \ldots, x_p).

O lado esquerdo é o logaritmo das chances, não a própria probabilidade. Isso importa porque probabilidades precisam ficar entre 00 e 11: um modelo simples de linha reta pode prever valores impossíveis como 1.21.2 ou 0.1-0.1, mas a regressão logística não.

Exemplo resolvido: prevendo uma nota vs prevendo aprovação/reprovação

Suponha que um professor queira estudar o desempenho dos alunos.

Se o resultado for a nota da prova e o único preditor for horas de estudo, um modelo linear simples pode ser

y^=42+5x\hat{y} = 42 + 5x

Se um aluno estuda 66 horas, a nota prevista é

y^=42+5(6)=72\hat{y} = 42 + 5(6) = 72

Aqui, o coeficiente angular diz que a nota prevista aumenta em 55 pontos para cada hora extra de estudo, se o modelo linear for um ajuste razoável.

Agora suponha que o professor também inclua horas de sono e número de simulados. Um modelo de regressão múltipla pode ser

y^=20+4x1+2x2+1.5x3\hat{y} = 20 + 4x_1 + 2x_2 + 1.5x_3

onde x1x_1 é horas de estudo, x2x_2 é horas de sono e x3x_3 é simulados concluídos.

O coeficiente 44 agora tem um significado mais específico: é a mudança prevista na nota para uma hora a mais de estudo, mantendo fixos o sono e os simulados.

Agora mude a pergunta. Em vez de prever uma nota, suponha que o professor queira a probabilidade de um aluno ser aprovado. Isso torna o resultado binário, então a regressão logística é a escolha natural:

log(p1p)=6+0.8x1+0.5x2\log\left(\frac{p}{1-p}\right) = -6 + 0.8x_1 + 0.5x_2

Se um aluno estuda 66 horas e dorme 77 horas, então

6+0.8(6)+0.5(7)=2.3-6 + 0.8(6) + 0.5(7) = 2.3

logo, a probabilidade prevista é

p=11+e2.30.91p = \frac{1}{1 + e^{-2.3}} \approx 0.91

Esse modelo prevê cerca de 91%91\% de chance de aprovação. Os números exatos são apenas um exemplo. A ideia principal é que, quando o resultado muda de uma nota para aprovado/reprovado, a família de regressão também deve mudar.

Erros comuns na análise de regressão

Usar regressão linear para um resultado binário

Se o resultado só pode ser 00 ou 11, a regressão logística geralmente é mais apropriada porque foi projetada para probabilidades. A regressão linear pode ser usada em alguns contextos especiais como aproximação, mas também pode produzir previsões de probabilidade ruins.

Tratar regressão como prova de causalidade

A regressão pode descrever associação e apoiar previsões. Ela não prova, por si só, que mudar uma variável causa mudança no resultado.

Ignorar as condições do modelo

Um coeficiente só significa o que você pensa que significa se o modelo escolhido for um ajuste razoável. Na regressão linear, isso muitas vezes significa verificar se um resumo em linha reta faz sentido e se os erros mostram algum padrão que o modelo não captou.

Interpretar demais os coeficientes da regressão múltipla

Na regressão múltipla, um coeficiente é condicional aos outros preditores incluídos. Se variáveis importantes estiverem faltando, ou se os preditores estiverem fortemente entrelaçados entre si, a interpretação se torna menos estável.

Onde a análise de regressão é usada

A regressão é usada quando você quer explicar variação, estimar relações condicionais ou fazer previsões a partir de dados.

Você vai vê-la em previsão de negócios, medicina, ciências sociais, controle de qualidade, educação e aprendizado de máquina. A forma exata depende do resultado: resultados numéricos geralmente levam a modelos lineares, enquanto resultados binários geralmente levam a modelos logísticos.

Como escolher o modelo de regressão certo

Faça estas duas perguntas primeiro:

  1. O resultado é numérico ou binário?
  2. Quantos preditores eu quero incluir?

Se o resultado for numérico, comece com regressão linear. Se houver um preditor, é regressão linear simples. Se houver vários, é regressão linear múltipla.

Se o resultado for binário, comece com regressão logística.

Isso não garante que o modelo seja bom, mas coloca você rapidamente na família de modelos correta.

Tente um problema parecido

Pegue um pequeno conjunto de dados e faça duas perguntas diferentes sobre ele. Primeiro, preveja um resultado numérico, como uma nota. Depois, converta o resultado em uma versão binária, como aprovado ou reprovado. Essa comparação lado a lado é uma das formas mais rápidas de fazer a análise de regressão realmente fazer sentido.

Precisa de ajuda com um problema?

Envie sua pergunta e receba uma solução verificada, passo a passo, em segundos.

Abrir GPAI Solver →