La régression logistique est un modèle de classification binaire. Elle combine les variables d’entrée en un score linéaire, fait passer ce score par la fonction sigmoïde, puis produit un nombre entre et qui s’interprète, dans le cadre du modèle ajusté, comme la probabilité estimée de la classe positive.
Malgré son nom, la régression logistique sert généralement à choisir entre deux classes, comme réussite/échec, spam/non spam ou défaut de paiement/pas de défaut. Le mot « régression » renvoie à la formule linéaire à l’intérieur du modèle, et non à la prédiction d’une sortie continue.
Formule de la régression logistique en un coup d’œil
La régression logistique binaire utilise
avec la fonction sigmoïde
La partie linéaire peut être n’importe quel nombre réel. La sigmoïde ramène cette valeur dans , ce qui permet d’utiliser la sortie comme estimation de probabilité.
Pourquoi la fonction sigmoïde est importante
Si vous utilisiez le score linéaire brut comme probabilité, vous pourriez obtenir des valeurs impossibles comme ou . La sigmoïde corrige cela en envoyant les grands scores négatifs près de , les grands scores positifs près de , et les scores proches de près de .
Cela donne une lecture pratique :
- si est très négatif, le modèle penche vers la classe
- si est proche de , le modèle est incertain
- si est très positif, le modèle penche vers la classe
La courbe est la plus raide près de . Donc une petite variation du score peut beaucoup changer la probabilité près de , mais beaucoup moins lorsque la probabilité est déjà proche de ou de .
Exemple de régression logistique
Supposons qu’un modèle utilise une seule variable et ait
Vous pouvez voir comme une note à un test et comme « réussite ». Les coefficients ici ne sont qu’un exemple pour montrer le mécanisme.
Si , alors
La probabilité prédite est donc
Si , alors
et
Ainsi, le même modèle donne environ de chances de réussir pour et environ pour . Le score a augmenté de , mais la sortie finale est restée entre et parce que la sigmoïde transforme le résultat en probabilité.
Si vous choisissez maintenant un seuil de , le premier cas est classé dans la classe et le second dans la classe . Cette dernière étape dépend du seuil. L’estimation de probabilité, elle, n’en dépend pas.
Un raccourci utile : avec un seuil de , la classe change exactement lorsque , car .
Comment la régression logistique devient un classifieur
La sortie du modèle est une estimation de probabilité. Une règle de classification est ajoutée ensuite.
Par exemple, avec un seuil de :
- prédire la classe si
- prédire la classe si
Mais n’est pas toujours le bon seuil. Si les faux positifs et les faux négatifs ont des coûts différents, ou si les classes sont très déséquilibrées, un autre seuil peut mieux fonctionner.
Ce que signifient les coefficients
Le signe d’un coefficient indique le sens de son effet sur le score linéaire :
- si , augmenter augmente et tend à augmenter
- si , augmenter diminue et tend à diminuer
Cette partie est simple. Le point plus subtil est que la probabilité ne varie pas linéairement avec la variable, car la courbe sigmoïde n’est pas une droite.
Dans la régression logistique standard, le modèle linéaire est sur l’échelle des log-cotes :
Cela signifie que chaque augmentation d’une unité d’une variable modifie linéairement les log-cotes lorsque les autres variables sont maintenues fixes. C’est plus précis que de dire qu’elle modifie la probabilité d’une quantité fixe.
Erreurs fréquentes en régression logistique
Traiter la sortie comme une classe garantie
Une prédiction comme ne signifie pas que l’événement va se produire. Cela signifie que le modèle attribue à la classe positive une probabilité estimée d’environ pour cette entrée.
Supposer que le seuil doit être
est courant, mais c’est un choix, pas une règle absolue. Le meilleur seuil dépend de l’application.
Penser que la probabilité varie linéairement
Le score est linéaire par rapport aux entrées, mais la probabilité ne l’est pas. Une variation d’une unité d’une variable peut avoir un effet différent près de que près de .
Oublier que le modèle est binaire sauf extension
La régression logistique de base traite deux classes. Il existe des versions multiclasse, mais ce sont des extensions, pas le même cadre binaire écrit autrement.
Quand la régression logistique est utilisée
La régression logistique est souvent utilisée lorsque la cible est de type oui/non, comme la détection de spam, la présence d’une maladie, l’attrition client, le défaut de remboursement d’un prêt ou les résultats réussite/échec.
Elle reste populaire parce qu’elle est simple, rapide et assez interprétable. Elle est particulièrement utile quand vous voulez un classifieur de référence, quand le jeu de données n’est pas énorme, ou quand vous avez besoin de probabilités estimées plutôt que de simples étiquettes.
Une façon simple de se la représenter
Voyez la régression logistique comme une machine en deux étapes :
- Additionner les indices avec un score linéaire.
- Convertir ce score en probabilité avec la sigmoïde.
Cette image suffit pour comprendre la plupart des exemples d’introduction et pour voir pourquoi la régression logistique se situe à l’interface entre les modèles linéaires et les tâches de classification.
Essayez un problème similaire de régression logistique
Prenez un score simple comme
Calculez pour quelques valeurs de , comme , et . Observez comment le score linéaire varie régulièrement tandis que la probabilité suit une courbe en S. Essayez ensuite un autre seuil et voyez à quel moment la classe prédite change.
Besoin d'aide pour un problème ?
Envoyez votre question et obtenez une solution vérifiée, étape par étape, en quelques secondes.
Ouvrir GPAI Solver →