A regressão linear é uma forma de descrever como uma variável muda em relação a outra usando uma reta de melhor ajuste. Na regressão linear simples, com uma variável de entrada xx e uma variável de saída yy, o modelo é

y^=b0+b1x\hat{y} = b_0 + b_1x

Aqui, y^\hat{y} é o valor previsto, b1b_1 é a inclinação e b0b_0 é o intercepto. O método de ajuste mais comum é o dos mínimos quadrados ordinários, que escolhe a reta que torna os resíduos ao quadrado o menores possível:

i=1n(yiy^i)2=i=1n(yi(b0+b1xi))2\sum_{i=1}^n \left(y_i - \hat{y}_i\right)^2 = \sum_{i=1}^n \left(y_i - (b_0 + b_1x_i)\right)^2

Se você só precisa da ideia principal, lembre-se disto: a inclinação informa a variação prevista pelo modelo em yy para um aumento de uma unidade em xx, desde que um modelo linear seja um ajuste razoável.

Equação da Regressão Linear: O Que Ela Mostra

A inclinação b1b_1 informa a variação prevista em yy quando xx aumenta em 11, se um modelo linear for uma descrição razoável dos dados. O intercepto b0b_0 é o valor previsto de yy quando x=0x = 0.

A palavra "previsto" é importante. Em geral, uma reta de regressão não passa por todos os pontos. Em vez disso, ela equilibra os erros em todos os pontos, resumindo a tendência em vez de coincidir com cada observação.

Fórmula da Regressão Linear Para b0b_0 e b1b_1

Na regressão linear simples, se os valores de xx não forem todos iguais, os coeficientes de mínimos quadrados podem ser escritos como

b1=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2b_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}

e

b0=yˉb1xˉb_0 = \bar{y} - b_1\bar{x}

Aqui, xˉ\bar{x} é a média dos valores de xx e yˉ\bar{y} é a média dos valores de yy. Essas fórmulas valem para regressão linear simples. Se você tiver mais de uma variável de entrada, a configuração muda.

Por Que Mínimos Quadrados Usa Resíduos ao Quadrado

Pense nos pontos dos dados como uma nuvem em um gráfico de dispersão. Muitas retas poderiam passar perto dessa nuvem. A regressão linear escolhe a reta que mantém pequenos, no geral, os desvios verticais, chamados de resíduos.

Elevar os resíduos ao quadrado faz duas coisas úteis. Isso impede que erros positivos e negativos se anulem e dá peso extra aos desvios maiores.

Exemplo de Regressão Linear Simples

Suponha que os pontos sejam (1,2)(1,2), (2,2)(2,2), (3,4)(3,4) e (4,4)(4,4). Vamos ajustar uma reta de regressão linear simples.

Primeiro, encontre as médias:

xˉ=1+2+3+44=2.5\bar{x} = \frac{1+2+3+4}{4} = 2.5 yˉ=2+2+4+44=3\bar{y} = \frac{2+2+4+4}{4} = 3

Agora calcule a inclinação:

b1=(1.5)(1)+(0.5)(1)+(0.5)(1)+(1.5)(1)(1.5)2+(0.5)2+(0.5)2+(1.5)2b_1 = \frac{(-1.5)(-1)+(-0.5)(-1)+(0.5)(1)+(1.5)(1)}{(-1.5)^2+(-0.5)^2+(0.5)^2+(1.5)^2} b1=45=0.8b_1 = \frac{4}{5} = 0.8

Depois, calcule o intercepto:

b0=yˉb1xˉ=30.8(2.5)=1b_0 = \bar{y} - b_1\bar{x} = 3 - 0.8(2.5) = 1

Então, a equação de regressão é

y^=1+0.8x\hat{y} = 1 + 0.8x

Se x=5x=5, o modelo prevê

y^=1+0.8(5)=5\hat{y} = 1 + 0.8(5) = 5

Você também pode verificar um resíduo. Em x=2x=2, o valor previsto é

y^=1+0.8(2)=2.6\hat{y} = 1 + 0.8(2) = 2.6

O valor real é 22, então o resíduo é

yy^=22.6=0.6y-\hat{y} = 2 - 2.6 = -0.6

Esse ponto fica 0.60.6 unidade abaixo da reta de regressão. Um único resíduo não diz se o modelo inteiro é bom, mas mostra como a regressão mede o erro.

Erros Comuns em Regressão Linear

Um erro é supor que a reta precisa passar por todos os pontos. Regressão trata de melhor ajuste, não de ajuste perfeito.

Outro erro é interpretar a inclinação como uma regra exata para cada ponto dos dados. A inclinação representa uma variação média prevista pelo modelo.

Um terceiro erro é tratar a regressão como prova de causalidade. Um padrão linear forte pode ajudar na previsão ou descrever associação, mas, sozinho, não explica por que as variáveis se movem juntas.

Também é fácil confiar demais em previsões fora do intervalo observado dos dados. A extrapolação pode falhar mesmo quando a reta ajustada parece boa dentro do intervalo original.

Quando Usar Regressão Linear

A regressão linear é usada quando um resumo por reta é útil e a relação é pelo menos aproximadamente linear no intervalo que importa para você. Usos comuns incluem estimar preço a partir do tamanho, nota a partir do tempo de estudo ou saída a partir da entrada em condições estáveis.

Ela é especialmente útil quando você quer um modelo interpretável. A inclinação, o intercepto e os resíduos são simples o bastante para explicar sem esconder o que o modelo está fazendo.

Uma Verificação Rápida Antes de Confiar na Reta

Antes de usar uma reta de regressão, faça duas perguntas. Um gráfico de dispersão parece aproximadamente linear? O contexto faz a inclinação ter sentido, em vez de ser enganosa? Se alguma resposta for não, outro modelo pode ser melhor.

Tente um Problema Parecido

Escolha quatro pontos, faça um esboço deles e ajuste uma reta com calculadora ou software. Depois, compare os valores previstos com os valores reais. Observar os resíduos costuma ser a maneira mais rápida de entender o que a reta de regressão realmente está fazendo.

Precisa de ajuda com um problema?

Envie sua pergunta e receba uma solução verificada, passo a passo, em segundos.

Abrir GPAI Solver →