La régression linéaire est une façon de décrire comment une variable évolue avec une autre à l’aide d’une droite d’ajustement. En régression linéaire simple, avec une variable d’entrée xx et une variable de sortie yy, le modèle est

y^=b0+b1x\hat{y} = b_0 + b_1x

Ici, y^\hat{y} est la valeur prédite, b1b_1 est la pente et b0b_0 est l’ordonnée à l’origine. La méthode d’ajustement habituelle est celle des moindres carrés ordinaires, qui choisit la droite rendant la somme des résidus au carré aussi petite que possible :

i=1n(yiy^i)2=i=1n(yi(b0+b1xi))2\sum_{i=1}^n \left(y_i - \hat{y}_i\right)^2 = \sum_{i=1}^n \left(y_i - (b_0 + b_1x_i)\right)^2

Si vous ne retenez que l’idée principale, souvenez-vous de ceci : la pente indique la variation prédite de yy par le modèle lorsque xx augmente d’une unité, tant qu’un modèle linéaire est un ajustement raisonnable.

Équation de la régression linéaire : ce qu’elle vous indique

La pente b1b_1 indique la variation prédite de yy lorsque xx augmente de 11, si un modèle linéaire décrit raisonnablement les données. L’ordonnée à l’origine b0b_0 est la valeur prédite de yy lorsque x=0x = 0.

Le mot « prédite » est important. Une droite de régression ne passe généralement pas par tous les points. Elle équilibre plutôt les erreurs sur l’ensemble des points, donc elle résume la tendance au lieu de reproduire chaque observation.

Formule de la régression linéaire pour b0b_0 et b1b_1

En régression linéaire simple, si les valeurs de xx ne sont pas toutes identiques, les coefficients des moindres carrés peuvent s’écrire

b1=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2b_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}

et

b0=yˉb1xˉb_0 = \bar{y} - b_1\bar{x}

Ici, xˉ\bar{x} est la moyenne des valeurs de xx et yˉ\bar{y} est la moyenne des valeurs de yy. Ces formules valent pour la régression linéaire simple. Si vous avez plus d’une variable d’entrée, la mise en place change.

Pourquoi la méthode des moindres carrés utilise les résidus au carré

Imaginez les points de données comme un nuage sur un graphique de dispersion. Beaucoup de droites pourraient passer près de ce nuage. La régression linéaire choisit la droite qui garde globalement petites les distances verticales, appelées résidus.

Élever les résidus au carré a deux avantages utiles. Cela empêche les erreurs positives et négatives de s’annuler, et cela donne plus de poids aux grandes erreurs.

Exemple simple de régression linéaire

Supposons que les points de données soient (1,2)(1,2), (2,2)(2,2), (3,4)(3,4) et (4,4)(4,4). Nous allons ajuster une droite de régression linéaire simple.

Commençons par calculer les moyennes :

xˉ=1+2+3+44=2.5\bar{x} = \frac{1+2+3+4}{4} = 2.5 yˉ=2+2+4+44=3\bar{y} = \frac{2+2+4+4}{4} = 3

Calculons maintenant la pente :

b1=(1.5)(1)+(0.5)(1)+(0.5)(1)+(1.5)(1)(1.5)2+(0.5)2+(0.5)2+(1.5)2b_1 = \frac{(-1.5)(-1)+(-0.5)(-1)+(0.5)(1)+(1.5)(1)}{(-1.5)^2+(-0.5)^2+(0.5)^2+(1.5)^2} b1=45=0.8b_1 = \frac{4}{5} = 0.8

Calculons ensuite l’ordonnée à l’origine :

b0=yˉb1xˉ=30.8(2.5)=1b_0 = \bar{y} - b_1\bar{x} = 3 - 0.8(2.5) = 1

L’équation de régression est donc

y^=1+0.8x\hat{y} = 1 + 0.8x

Si x=5x=5, le modèle prédit

y^=1+0.8(5)=5\hat{y} = 1 + 0.8(5) = 5

Vous pouvez aussi vérifier un résidu. Pour x=2x=2, la valeur prédite est

y^=1+0.8(2)=2.6\hat{y} = 1 + 0.8(2) = 2.6

La valeur réelle est 22, donc le résidu est

yy^=22.6=0.6y-\hat{y} = 2 - 2.6 = -0.6

Ce point se trouve à 0.60.6 unité sous la droite de régression. Un seul résidu ne permet pas de savoir si l’ensemble du modèle est bon, mais il montre comment la régression mesure l’erreur.

Erreurs fréquentes en régression linéaire

Une erreur consiste à supposer que la droite doit passer par tous les points. La régression cherche le meilleur ajustement, pas un ajustement parfait.

Une autre erreur consiste à lire la pente comme une règle exacte pour chaque point de données. La pente représente une variation moyenne prédite par le modèle.

Une troisième erreur consiste à traiter la régression comme une preuve de causalité. Une forte tendance linéaire peut aider à prédire ou à décrire une association, mais elle n’explique pas à elle seule pourquoi les variables évoluent ensemble.

Il est aussi facile d’accorder trop de confiance aux prédictions en dehors de l’intervalle des données observées. L’extrapolation peut échouer même lorsque la droite ajustée semble bonne dans l’intervalle d’origine.

Quand utiliser la régression linéaire

La régression linéaire est utilisée lorsqu’un résumé par une droite est utile et que la relation est au moins approximativement linéaire sur l’intervalle qui vous intéresse. Parmi les usages courants, on trouve l’estimation du prix à partir de la taille, du score à partir du temps d’étude, ou de la sortie à partir de l’entrée dans des conditions stables.

Elle est particulièrement utile lorsque vous voulez un modèle facile à interpréter. La pente, l’ordonnée à l’origine et les résidus sont assez simples à expliquer sans masquer ce que fait le modèle.

Une vérification rapide avant de faire confiance à la droite

Avant d’utiliser une droite de régression, posez-vous deux questions. Le nuage de points semble-t-il approximativement linéaire ? Le contexte donne-t-il un sens à la pente plutôt que de la rendre trompeuse ? Si la réponse à l’une de ces questions est non, un autre modèle peut être préférable.

Essayez un problème similaire

Choisissez quatre points, tracez-les et ajustez une droite avec une calculatrice ou un logiciel. Comparez ensuite les valeurs prédites aux valeurs réelles. Examiner les résidus est souvent le moyen le plus rapide de comprendre ce que fait réellement la droite de régression.

Besoin d'aide pour un problème ?

Envoyez votre question et obtenez une solution vérifiée, étape par étape, en quelques secondes.

Ouvrir GPAI Solver →