La régression linéaire est une façon de décrire comment une variable évolue avec une autre à l’aide d’une droite d’ajustement. En régression linéaire simple, avec une variable d’entrée et une variable de sortie , le modèle est
Ici, est la valeur prédite, est la pente et est l’ordonnée à l’origine. La méthode d’ajustement habituelle est celle des moindres carrés ordinaires, qui choisit la droite rendant la somme des résidus au carré aussi petite que possible :
Si vous ne retenez que l’idée principale, souvenez-vous de ceci : la pente indique la variation prédite de par le modèle lorsque augmente d’une unité, tant qu’un modèle linéaire est un ajustement raisonnable.
Équation de la régression linéaire : ce qu’elle vous indique
La pente indique la variation prédite de lorsque augmente de , si un modèle linéaire décrit raisonnablement les données. L’ordonnée à l’origine est la valeur prédite de lorsque .
Le mot « prédite » est important. Une droite de régression ne passe généralement pas par tous les points. Elle équilibre plutôt les erreurs sur l’ensemble des points, donc elle résume la tendance au lieu de reproduire chaque observation.
Formule de la régression linéaire pour et
En régression linéaire simple, si les valeurs de ne sont pas toutes identiques, les coefficients des moindres carrés peuvent s’écrire
et
Ici, est la moyenne des valeurs de et est la moyenne des valeurs de . Ces formules valent pour la régression linéaire simple. Si vous avez plus d’une variable d’entrée, la mise en place change.
Pourquoi la méthode des moindres carrés utilise les résidus au carré
Imaginez les points de données comme un nuage sur un graphique de dispersion. Beaucoup de droites pourraient passer près de ce nuage. La régression linéaire choisit la droite qui garde globalement petites les distances verticales, appelées résidus.
Élever les résidus au carré a deux avantages utiles. Cela empêche les erreurs positives et négatives de s’annuler, et cela donne plus de poids aux grandes erreurs.
Exemple simple de régression linéaire
Supposons que les points de données soient , , et . Nous allons ajuster une droite de régression linéaire simple.
Commençons par calculer les moyennes :
Calculons maintenant la pente :
Calculons ensuite l’ordonnée à l’origine :
L’équation de régression est donc
Si , le modèle prédit
Vous pouvez aussi vérifier un résidu. Pour , la valeur prédite est
La valeur réelle est , donc le résidu est
Ce point se trouve à unité sous la droite de régression. Un seul résidu ne permet pas de savoir si l’ensemble du modèle est bon, mais il montre comment la régression mesure l’erreur.
Erreurs fréquentes en régression linéaire
Une erreur consiste à supposer que la droite doit passer par tous les points. La régression cherche le meilleur ajustement, pas un ajustement parfait.
Une autre erreur consiste à lire la pente comme une règle exacte pour chaque point de données. La pente représente une variation moyenne prédite par le modèle.
Une troisième erreur consiste à traiter la régression comme une preuve de causalité. Une forte tendance linéaire peut aider à prédire ou à décrire une association, mais elle n’explique pas à elle seule pourquoi les variables évoluent ensemble.
Il est aussi facile d’accorder trop de confiance aux prédictions en dehors de l’intervalle des données observées. L’extrapolation peut échouer même lorsque la droite ajustée semble bonne dans l’intervalle d’origine.
Quand utiliser la régression linéaire
La régression linéaire est utilisée lorsqu’un résumé par une droite est utile et que la relation est au moins approximativement linéaire sur l’intervalle qui vous intéresse. Parmi les usages courants, on trouve l’estimation du prix à partir de la taille, du score à partir du temps d’étude, ou de la sortie à partir de l’entrée dans des conditions stables.
Elle est particulièrement utile lorsque vous voulez un modèle facile à interpréter. La pente, l’ordonnée à l’origine et les résidus sont assez simples à expliquer sans masquer ce que fait le modèle.
Une vérification rapide avant de faire confiance à la droite
Avant d’utiliser une droite de régression, posez-vous deux questions. Le nuage de points semble-t-il approximativement linéaire ? Le contexte donne-t-il un sens à la pente plutôt que de la rendre trompeuse ? Si la réponse à l’une de ces questions est non, un autre modèle peut être préférable.
Essayez un problème similaire
Choisissez quatre points, tracez-les et ajustez une droite avec une calculatrice ou un logiciel. Comparez ensuite les valeurs prédites aux valeurs réelles. Examiner les résidus est souvent le moyen le plus rapide de comprendre ce que fait réellement la droite de régression.
Besoin d'aide pour un problème ?
Envoyez votre question et obtenez une solution vérifiée, étape par étape, en quelques secondes.
Ouvrir GPAI Solver →