Qu’est-ce que la régression linéaire en termes simples ?

La régression linéaire ajuste une droite aux données pour décrire ou prédire comment une variable change quand une autre variable change.

Quelle équation utilise la régression linéaire ?

En régression linéaire simple, la droite ajustée s’écrit $\hat{y} = b_0 + b_1x$, où $b_0$ est l’ordonnée à l’origine et $b_1$ la pente.

La régression linéaire prouve-t-elle une relation de cause à effet ?

Non. Une droite de régression peut décrire une association et aider à faire des prédictions, mais elle n’établit pas à elle seule une causalité.

Régression linéaire — Équation, formule et exemples

La régression linéaire est une façon de décrire comment une variable évolue avec une autre à l’aide d’une droite d’ajustement. En régression linéaire simple, avec une variable d’entrée $x$ et une variable de sortie $y$ , le modèle est

\hat{y} = b_0 + b_1x

Ici, $\hat{y}$ est la valeur prédite, $b_1$ est la pente et $b_0$ est l’ordonnée à l’origine. La méthode d’ajustement habituelle est celle des moindres carrés ordinaires, qui choisit la droite rendant la somme des résidus au carré aussi petite que possible :

\sum_{i=1}^n \left(y_i - \hat{y}_i\right)^2 = \sum_{i=1}^n \left(y_i - (b_0 + b_1x_i)\right)^2

Si vous ne retenez que l’idée principale, souvenez-vous de ceci : la pente indique la variation prédite de $y$ par le modèle lorsque $x$ augmente d’une unité, tant qu’un modèle linéaire est un ajustement raisonnable.

Équation de la régression linéaire : ce qu’elle vous indique

La pente $b_1$ indique la variation prédite de $y$ lorsque $x$ augmente de $1$ , si un modèle linéaire décrit raisonnablement les données. L’ordonnée à l’origine $b_0$ est la valeur prédite de $y$ lorsque $x = 0$ .

Le mot « prédite » est important. Une droite de régression ne passe généralement pas par tous les points. Elle équilibre plutôt les erreurs sur l’ensemble des points, donc elle résume la tendance au lieu de reproduire chaque observation.

Formule de la régression linéaire pour $b_0$ et $b_1$

En régression linéaire simple, si les valeurs de $x$ ne sont pas toutes identiques, les coefficients des moindres carrés peuvent s’écrire

b_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}

b_0 = \bar{y} - b_1\bar{x}

Ici, $\bar{x}$ est la moyenne des valeurs de $x$ et $\bar{y}$ est la moyenne des valeurs de $y$ . Ces formules valent pour la régression linéaire simple. Si vous avez plus d’une variable d’entrée, la mise en place change.

Pourquoi la méthode des moindres carrés utilise les résidus au carré

Imaginez les points de données comme un nuage sur un graphique de dispersion. Beaucoup de droites pourraient passer près de ce nuage. La régression linéaire choisit la droite qui garde globalement petites les distances verticales, appelées résidus.

Élever les résidus au carré a deux avantages utiles. Cela empêche les erreurs positives et négatives de s’annuler, et cela donne plus de poids aux grandes erreurs.

Exemple simple de régression linéaire

Supposons que les points de données soient $(1,2)$ , $(2,2)$ , $(3,4)$ et $(4,4)$ . Nous allons ajuster une droite de régression linéaire simple.

Commençons par calculer les moyennes :

\bar{x} = \frac{1+2+3+4}{4} = 2.5

\bar{y} = \frac{2+2+4+4}{4} = 3

Calculons maintenant la pente :

b_1 = \frac{(-1.5)(-1)+(-0.5)(-1)+(0.5)(1)+(1.5)(1)}{(-1.5)^2+(-0.5)^2+(0.5)^2+(1.5)^2}

b_1 = \frac{4}{5} = 0.8

Calculons ensuite l’ordonnée à l’origine :

b_0 = \bar{y} - b_1\bar{x} = 3 - 0.8(2.5) = 1

L’équation de régression est donc

\hat{y} = 1 + 0.8x

Si $x=5$ , le modèle prédit

\hat{y} = 1 + 0.8(5) = 5

Vous pouvez aussi vérifier un résidu. Pour $x=2$ , la valeur prédite est

\hat{y} = 1 + 0.8(2) = 2.6

La valeur réelle est $2$ , donc le résidu est

y-\hat{y} = 2 - 2.6 = -0.6

Ce point se trouve à $0.6$ unité sous la droite de régression. Un seul résidu ne permet pas de savoir si l’ensemble du modèle est bon, mais il montre comment la régression mesure l’erreur.

Erreurs fréquentes en régression linéaire

Une erreur consiste à supposer que la droite doit passer par tous les points. La régression cherche le meilleur ajustement, pas un ajustement parfait.

Une autre erreur consiste à lire la pente comme une règle exacte pour chaque point de données. La pente représente une variation moyenne prédite par le modèle.

Une troisième erreur consiste à traiter la régression comme une preuve de causalité. Une forte tendance linéaire peut aider à prédire ou à décrire une association, mais elle n’explique pas à elle seule pourquoi les variables évoluent ensemble.

Il est aussi facile d’accorder trop de confiance aux prédictions en dehors de l’intervalle des données observées. L’extrapolation peut échouer même lorsque la droite ajustée semble bonne dans l’intervalle d’origine.

Quand utiliser la régression linéaire

La régression linéaire est utilisée lorsqu’un résumé par une droite est utile et que la relation est au moins approximativement linéaire sur l’intervalle qui vous intéresse. Parmi les usages courants, on trouve l’estimation du prix à partir de la taille, du score à partir du temps d’étude, ou de la sortie à partir de l’entrée dans des conditions stables.

Elle est particulièrement utile lorsque vous voulez un modèle facile à interpréter. La pente, l’ordonnée à l’origine et les résidus sont assez simples à expliquer sans masquer ce que fait le modèle.

Une vérification rapide avant de faire confiance à la droite

Avant d’utiliser une droite de régression, posez-vous deux questions. Le nuage de points semble-t-il approximativement linéaire ? Le contexte donne-t-il un sens à la pente plutôt que de la rendre trompeuse ? Si la réponse à l’une de ces questions est non, un autre modèle peut être préférable.

Essayez un problème similaire

Choisissez quatre points, tracez-les et ajustez une droite avec une calculatrice ou un logiciel. Comparez ensuite les valeurs prédites aux valeurs réelles. Examiner les résidus est souvent le moyen le plus rapide de comprendre ce que fait réellement la droite de régression.

Besoin d'aide pour un problème ?

Envoyez votre question et obtenez une solution vérifiée, étape par étape, en quelques secondes.

Ouvrir GPAI Solver →