Analyse de régression — simple, multiple et logistique

L’analyse de régression explique comment une variable de sortie change quand un ou plusieurs prédicteurs changent. On utilise la régression linéaire simple pour un seul prédicteur et une sortie numérique, la régression linéaire multiple pour plusieurs prédicteurs et une sortie numérique, et la régression logistique pour une sortie binaire comme réussite/échec.

Cette distinction répond rapidement à la question principale :

Régression linéaire simple : un prédicteur, une sortie numérique.
Régression linéaire multiple : plusieurs prédicteurs, une sortie numérique.
Régression logistique : une sortie binaire comme oui/non, réussite/échec, ou clic/pas de clic.

Ensuite, le vrai travail consiste à interpréter le modèle. Un coefficient n’a le sens que vous lui donnez que si le modèle correspond au type de sortie et s’ajuste raisonnablement bien aux données.

Ce que fait l’analyse de régression

La régression ne consiste pas seulement à tracer une droite à travers des points. Elle construit une règle qui relie les prédicteurs à une sortie attendue, afin d’expliquer des tendances ou de faire des prédictions.

En régression linéaire, cette règle est un modèle en ligne droite pour la valeur attendue de la sortie. En régression logistique, le modèle est construit pour des probabilités, de sorte que les valeurs prédites restent entre $0$ et $1$ .

Régression linéaire simple : un prédicteur, une sortie numérique

La régression linéaire simple utilise un prédicteur $x$ et une sortie numérique $y$ :

\hat{y} = b_0 + b_1x

Ici, $\hat{y}$ est la sortie prédite, $b_0$ est l’ordonnée à l’origine, et $b_1$ est la pente.

La pente $b_1$ indique la variation prédite de $y$ pour une augmentation d’une unité de $x$ , si une relation linéaire est une approximation raisonnable sur l’intervalle qui vous intéresse.

Régression linéaire multiple : plusieurs prédicteurs, une sortie numérique

La régression linéaire multiple garde la même idée de base, mais utilise plus d’un prédicteur :

\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

C’est utile lorsqu’un seul prédicteur est trop simpliste. Dans la réalité, les résultats dépendent souvent de plusieurs facteurs en même temps.

Le changement principal dans l’interprétation est important : $b_1$ est la variation prédite de $y$ pour une augmentation d’une unité de $x_1$ , tandis que les autres prédicteurs inclus sont maintenus fixes.

Cette condition de « maintenir les autres prédicteurs fixes » est ce qui distingue la régression multiple d’une série de comparaisons à une seule variable.

Régression logistique : sorties binaires et probabilités

La régression logistique est faite pour une sortie binaire, et non numérique. Si la sortie correspond à des situations comme admis ou non admis, parti ou resté, ou réussi ou échoué, la régression linéaire est généralement le mauvais outil.

Au lieu de modéliser directement la sortie par une droite, la régression logistique modélise le logarithme des cotes de la sortie :

\log\left(\frac{p}{1-p}\right) = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

où $p = P(Y=1 \mid x_1, x_2, \ldots, x_p)$ .

Le membre de gauche est le logarithme des cotes, pas la probabilité elle-même. C’est important, car les probabilités doivent rester entre $0$ et $1$ : un simple modèle linéaire peut prédire des valeurs impossibles comme $1.2$ ou $-0.1$ , mais la régression logistique ne le peut pas.

Exemple détaillé : prédire un score ou prédire réussite/échec

Supposons qu’un enseignant veuille étudier les performances des élèves.

Si la sortie est la note à un examen et que le seul prédicteur est le nombre d’heures d’étude, un modèle linéaire simple pourrait être

\hat{y} = 42 + 5x

Si un élève étudie pendant $6$ heures, la note prédite est

\hat{y} = 42 + 5(6) = 72

Ici, la pente indique que la note prédite augmente de $5$ points pour chaque heure d’étude supplémentaire, si le modèle linéaire fournit un ajustement raisonnable.

Supposons maintenant que l’enseignant ajoute aussi le nombre d’heures de sommeil et le nombre de quiz d’entraînement effectués. Un modèle de régression multiple pourrait être

\hat{y} = 20 + 4x_1 + 2x_2 + 1.5x_3

où $x_1$ est le nombre d’heures d’étude, $x_2$ le nombre d’heures de sommeil, et $x_3$ le nombre de quiz d’entraînement réalisés.

Le coefficient $4$ a maintenant un sens plus précis : c’est la variation prédite de la note pour une heure d’étude supplémentaire, en maintenant fixes le sommeil et les quiz d’entraînement.

Changeons maintenant la question. Au lieu de prédire une note, supposons que l’enseignant veuille la probabilité qu’un élève réussisse. La sortie devient alors binaire, donc la régression logistique est le choix naturel :

\log\left(\frac{p}{1-p}\right) = -6 + 0.8x_1 + 0.5x_2

Si un élève étudie $6$ heures et dort $7$ heures, alors

-6 + 0.8(6) + 0.5(7) = 2.3

donc la probabilité prédite est

p = \frac{1}{1 + e^{-2.3}} \approx 0.91

Ce modèle prédit environ $91\%$ de chances de réussir. Les nombres exacts ne sont qu’un exemple. L’idée essentielle est que lorsque la sortie passe d’une note à réussite/échec, la famille de régression doit changer elle aussi.

Erreurs fréquentes en analyse de régression

Utiliser une régression linéaire pour une sortie binaire

Si la sortie ne peut valoir que $0$ ou $1$ , la régression logistique est généralement plus appropriée, car elle est conçue pour les probabilités. La régression linéaire peut être utilisée comme approximation dans certains cas particuliers, mais elle peut aussi produire de mauvaises prédictions de probabilité.

Prendre la régression comme une preuve de causalité

La régression peut décrire une association et aider à faire des prédictions. Elle ne prouve pas, à elle seule, qu’un changement d’une variable cause un changement de la sortie.

Ignorer les conditions du modèle

Un coefficient n’a le sens que vous lui attribuez que si le modèle choisi fournit un ajustement raisonnable. En régression linéaire, cela signifie souvent vérifier si un résumé par une droite a du sens et si les erreurs montrent une structure que le modèle n’a pas captée.

Surinterpréter les coefficients en régression multiple

En régression multiple, un coefficient est conditionnel aux autres prédicteurs inclus. Si des variables importantes manquent, ou si les prédicteurs sont fortement liés entre eux, l’interprétation devient moins stable.

Où l’analyse de régression est utilisée

La régression est utilisée quand on veut expliquer une variabilité, estimer des relations conditionnelles ou faire des prédictions à partir de données.

On la retrouve dans les prévisions en entreprise, la médecine, les sciences sociales, le contrôle qualité, l’éducation et le machine learning. La forme exacte dépend de la sortie : les sorties numériques conduisent souvent à des modèles linéaires, tandis que les sorties binaires conduisent souvent à des modèles logistiques.

Comment choisir le bon modèle de régression

Commencez par vous poser ces deux questions :

La sortie est-elle numérique ou binaire ?
Combien de prédicteurs veux-je inclure ?

Si la sortie est numérique, commencez par une régression linéaire. S’il y a un seul prédicteur, c’est une régression linéaire simple. S’il y en a plusieurs, c’est une régression linéaire multiple.

Si la sortie est binaire, commencez par une régression logistique.

Cela ne garantit pas que le modèle soit bon, mais cela vous place rapidement dans la bonne famille de modèles.

Essayez un problème similaire

Prenez un petit jeu de données et posez-lui deux questions différentes. Commencez par prédire une sortie numérique, comme une note. Ensuite, transformez cette sortie en version binaire, comme réussite ou échec. Cette comparaison côte à côte est l’un des moyens les plus rapides de vraiment comprendre l’analyse de régression.

Besoin d'aide pour un problème ?

Envoyez votre question et obtenez une solution vérifiée, étape par étape, en quelques secondes.

Ouvrir GPAI Solver →