Análise de Regressão — Simples, Múltipla e Logística

A análise de regressão explica como um resultado muda à medida que um ou mais preditores mudam. Use regressão linear simples para um preditor e um resultado numérico, regressão linear múltipla para vários preditores e um resultado numérico, e regressão logística para um resultado binário, como aprovado/reprovado.

Essa distinção responde rapidamente à principal dúvida de busca:

Regressão linear simples: um preditor, resultado numérico.
Regressão linear múltipla: vários preditores, resultado numérico.
Regressão logística: resultado binário, como sim/não, aprovado/reprovado ou clicou/não clicou.

Depois disso, o verdadeiro trabalho é a interpretação. Um coeficiente só significa o que você pensa que significa se o modelo corresponder ao tipo de resultado e se ajustar aos dados de forma razoavelmente boa.

O que a análise de regressão faz

Regressão não é apenas traçar uma linha entre pontos. Ela constrói uma regra que liga preditores a um resultado esperado, para que você possa explicar padrões ou fazer previsões.

Na regressão linear, essa regra é um modelo de linha reta para o valor esperado do resultado. Na regressão logística, o modelo é construído para probabilidades, então os valores previstos ficam entre $0$ e $1$ .

Regressão linear simples: um preditor, resultado numérico

A regressão linear simples usa um preditor $x$ e um resultado numérico $y$ :

\hat{y} = b_0 + b_1x

Aqui, $\hat{y}$ é o resultado previsto, $b_0$ é o intercepto e $b_1$ é o coeficiente angular.

O coeficiente angular $b_1$ informa a mudança prevista em $y$ para um aumento de uma unidade em $x$ , se um padrão de linha reta for uma aproximação razoável no intervalo que importa para você.

Regressão linear múltipla: vários preditores, um resultado numérico

A regressão linear múltipla mantém a mesma ideia básica, mas usa mais de um preditor:

\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

Isso é útil quando um único preditor é simples demais. Resultados reais muitas vezes dependem de vários fatores ao mesmo tempo.

A principal mudança na interpretação é importante: $b_1$ é a mudança prevista em $y$ para um aumento de uma unidade em $x_1$ , enquanto os outros preditores incluídos são mantidos fixos.

Essa condição de “manter os outros preditores fixos” é o que torna a regressão múltipla diferente de uma série de comparações com uma única variável.

Regressão logística: resultados binários e probabilidades

A regressão logística é para um resultado binário, não numérico. Se o resultado for algo como admitido ou não admitido, cancelou ou permaneceu, ou aprovado ou reprovado, a regressão linear geralmente é a ferramenta errada.

Em vez de modelar o próprio resultado como uma linha reta, a regressão logística modela o logaritmo das chances do resultado:

\log\left(\frac{p}{1-p}\right) = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

onde $p = P(Y=1 \mid x_1, x_2, \ldots, x_p)$ .

O lado esquerdo é o logaritmo das chances, não a própria probabilidade. Isso importa porque probabilidades precisam ficar entre $0$ e $1$ : um modelo simples de linha reta pode prever valores impossíveis como $1.2$ ou $-0.1$ , mas a regressão logística não.

Exemplo resolvido: prevendo uma nota vs prevendo aprovação/reprovação

Suponha que um professor queira estudar o desempenho dos alunos.

Se o resultado for a nota da prova e o único preditor for horas de estudo, um modelo linear simples pode ser

\hat{y} = 42 + 5x

Se um aluno estuda $6$ horas, a nota prevista é

\hat{y} = 42 + 5(6) = 72

Aqui, o coeficiente angular diz que a nota prevista aumenta em $5$ pontos para cada hora extra de estudo, se o modelo linear for um ajuste razoável.

Agora suponha que o professor também inclua horas de sono e número de simulados. Um modelo de regressão múltipla pode ser

\hat{y} = 20 + 4x_1 + 2x_2 + 1.5x_3

onde $x_1$ é horas de estudo, $x_2$ é horas de sono e $x_3$ é simulados concluídos.

O coeficiente $4$ agora tem um significado mais específico: é a mudança prevista na nota para uma hora a mais de estudo, mantendo fixos o sono e os simulados.

Agora mude a pergunta. Em vez de prever uma nota, suponha que o professor queira a probabilidade de um aluno ser aprovado. Isso torna o resultado binário, então a regressão logística é a escolha natural:

\log\left(\frac{p}{1-p}\right) = -6 + 0.8x_1 + 0.5x_2

Se um aluno estuda $6$ horas e dorme $7$ horas, então

-6 + 0.8(6) + 0.5(7) = 2.3

logo, a probabilidade prevista é

p = \frac{1}{1 + e^{-2.3}} \approx 0.91

Esse modelo prevê cerca de $91\%$ de chance de aprovação. Os números exatos são apenas um exemplo. A ideia principal é que, quando o resultado muda de uma nota para aprovado/reprovado, a família de regressão também deve mudar.

Erros comuns na análise de regressão

Usar regressão linear para um resultado binário

Se o resultado só pode ser $0$ ou $1$ , a regressão logística geralmente é mais apropriada porque foi projetada para probabilidades. A regressão linear pode ser usada em alguns contextos especiais como aproximação, mas também pode produzir previsões de probabilidade ruins.

Tratar regressão como prova de causalidade

A regressão pode descrever associação e apoiar previsões. Ela não prova, por si só, que mudar uma variável causa mudança no resultado.

Ignorar as condições do modelo

Um coeficiente só significa o que você pensa que significa se o modelo escolhido for um ajuste razoável. Na regressão linear, isso muitas vezes significa verificar se um resumo em linha reta faz sentido e se os erros mostram algum padrão que o modelo não captou.

Interpretar demais os coeficientes da regressão múltipla

Na regressão múltipla, um coeficiente é condicional aos outros preditores incluídos. Se variáveis importantes estiverem faltando, ou se os preditores estiverem fortemente entrelaçados entre si, a interpretação se torna menos estável.

Onde a análise de regressão é usada

A regressão é usada quando você quer explicar variação, estimar relações condicionais ou fazer previsões a partir de dados.

Você vai vê-la em previsão de negócios, medicina, ciências sociais, controle de qualidade, educação e aprendizado de máquina. A forma exata depende do resultado: resultados numéricos geralmente levam a modelos lineares, enquanto resultados binários geralmente levam a modelos logísticos.

Como escolher o modelo de regressão certo

Faça estas duas perguntas primeiro:

O resultado é numérico ou binário?
Quantos preditores eu quero incluir?

Se o resultado for numérico, comece com regressão linear. Se houver um preditor, é regressão linear simples. Se houver vários, é regressão linear múltipla.

Se o resultado for binário, comece com regressão logística.

Isso não garante que o modelo seja bom, mas coloca você rapidamente na família de modelos correta.

Tente um problema parecido

Pegue um pequeno conjunto de dados e faça duas perguntas diferentes sobre ele. Primeiro, preveja um resultado numérico, como uma nota. Depois, converta o resultado em uma versão binária, como aprovado ou reprovado. Essa comparação lado a lado é uma das formas mais rápidas de fazer a análise de regressão realmente fazer sentido.

Precisa de ajuda com um problema?

Envie sua pergunta e receba uma solução verificada, passo a passo, em segundos.

Abrir GPAI Solver →