Le théorème de Bayes explique comment mettre à jour une probabilité après l’observation d’une nouvelle information. Si P(B)>0P(B) > 0, alors

P(AB)=P(BA)P(A)P(B)P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)}

Il répond à une question très précise : après que l’événement BB s’est produit, quelle est maintenant la probabilité de l’événement AA ? Cette idée est importante dans les tests médicaux, le filtrage des spams et toute situation où une information peut être trompeuse si l’on ne tient pas aussi compte de la fréquence initiale de l’événement.

Formule du théorème de Bayes en langage simple

Le théorème de Bayes combine trois éléments :

  • partir de ce que vous pensiez avant l’information, P(A)P(A)
  • se demander à quel point l’information est compatible avec cet événement, P(BA)P(B \mid A)
  • ajuster par la fréquence globale de l’information, P(B)P(B)

Le résultat, P(AB)P(A \mid B), s’appelle la probabilité a posteriori.

Ce que signifie chaque partie de la formule

Dans

P(AB)=P(BA)P(A)P(B)P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)}

P(A)P(A) est le prior. C’est votre probabilité de départ pour AA avant d’utiliser la nouvelle information.

P(BA)P(B \mid A) est la vraisemblance. Elle indique à quel point l’information BB est probable si AA est vrai.

P(B)P(B) est la probabilité globale de l’information. Ce terme est important, car certaines informations sont fréquentes même lorsque AA est faux.

P(AB)P(A \mid B) est le posterior. C’est la probabilité mise à jour de AA après avoir appris que BB s’est produit.

Pourquoi le dénominateur change la réponse

Le théorème de Bayes ne se contente pas de récompenser une information qui va dans le sens de votre hypothèse. Il demande aussi si cette même information apparaît souvent de toute façon.

C’est pourquoi le dénominateur P(B)P(B) est important. Si l’information est fréquente dans de nombreux cas, l’observer ne doit pas beaucoup modifier votre croyance. Si elle est rare sauf lorsque AA est vrai, elle peut fortement faire évoluer votre estimation.

Démonstration courte à partir de la probabilité conditionnelle

Supposons que P(B)>0P(B) > 0 et, si nécessaire, que P(A)>0P(A) > 0. Par définition de la probabilité conditionnelle,

P(AB)=P(AB)P(B)P(A \mid B) = \frac{P(A \cap B)}{P(B)}

et

P(BA)=P(AB)P(A)P(B \mid A) = \frac{P(A \cap B)}{P(A)}

À partir de la deuxième équation,

P(AB)=P(BA)P(A)P(A \cap B) = P(B \mid A)P(A)

Remplaçons cela dans la première équation :

P(AB)=P(BA)P(A)P(B)P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)}

C’est le théorème de Bayes.

Exemple résolu du théorème de Bayes : un test médical positif

Supposons qu’une maladie touche 1%1\% d’une population. Un test a une sensibilité de 99%99\% et un taux de faux positifs de 5%5\%.

Posons

  • DD = la personne a la maladie
  • ++ = le test est positif

Alors

P(D)=0.01P(D) = 0.01 P(+D)=0.99P(+ \mid D) = 0.99 P(+Dc)=0.05P(+ \mid D^c) = 0.05

Nous cherchons P(D+)P(D \mid +), la probabilité qu’une personne ait réellement la maladie sachant que le test est positif.

Commençons par trouver la probabilité globale d’un résultat positif. Un test positif peut se produire de deux façons : la personne a la maladie et le test est positif, ou la personne n’a pas la maladie et le test est quand même positif.

P(+)=P(+D)P(D)+P(+Dc)P(Dc)P(+) = P(+ \mid D)P(D) + P(+ \mid D^c)P(D^c) P(+)=(0.99)(0.01)+(0.05)(0.99)=0.0594P(+) = (0.99)(0.01) + (0.05)(0.99) = 0.0594

Appliquons maintenant le théorème de Bayes :

P(D+)=P(+D)P(D)P(+)=(0.99)(0.01)0.0594P(D \mid +) = \frac{P(+ \mid D)P(D)}{P(+)} = \frac{(0.99)(0.01)}{0.0594} P(D+)=0.00990.0594=160.167P(D \mid +) = \frac{0.0099}{0.0594} = \frac{1}{6} \approx 0.167

Ainsi, la probabilité d’avoir réellement la maladie après un test positif est d’environ 16.7%16.7\%, et non de 99%99\%. Le test est performant, mais la maladie est rare, donc la plupart des résultats positifs proviennent encore du groupe beaucoup plus grand des personnes non malades.

C’est la leçon principale que beaucoup de gens manquent : même un test performant peut conduire à une probabilité a posteriori modérée lorsque la maladie est rare au départ.

Une version utile du théorème de Bayes à deux cas

Si l’information peut provenir de deux cas complémentaires, AA et AcA^c, alors

P(B)=P(BA)P(A)+P(BAc)P(Ac)P(B) = P(B \mid A)P(A) + P(B \mid A^c)P(A^c)

En utilisant cela dans le théorème de Bayes, on obtient

P(AB)=P(BA)P(A)P(BA)P(A)+P(BAc)P(Ac)P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B \mid A)P(A) + P(B \mid A^c)P(A^c)}

Cette forme est souvent la plus pratique dans les problèmes à deux cas.

Erreurs fréquentes avec le théorème de Bayes

Confondre P(AB)P(A \mid B) et P(BA)P(B \mid A)

Ces probabilités ne sont généralement pas égales. Un test positif peut être très probable quand une maladie est présente, alors que la maladie peut malgré tout rester assez peu probable après un test positif.

Ignorer le taux de base

Le prior P(A)P(A) compte. Si AA est très rare, même une information forte peut ne pas faire monter le posterior autant que l’intuition le suggère.

Calculer P(B)P(B) de façon trop restrictive

Le dénominateur n’est pas juste un terme restant. C’est la probabilité totale de l’information, et il faut souvent additionner les contributions de plusieurs cas.

Utiliser la formule quand P(B)=0P(B) = 0

Le théorème de Bayes sous cette forme exige que P(B)>0P(B) > 0. Si l’information a une probabilité nulle, la probabilité conditionnelle P(AB)P(A \mid B) n’est pas définie par la formule de base.

Quand utilise-t-on le théorème de Bayes ?

Le théorème de Bayes apparaît dans les tests médicaux, le filtrage des spams, l’analyse de fiabilité, le machine learning et l’inférence scientifique. Dans chaque cas, on retrouve la même idée : mettre à jour une croyance quand une nouvelle information arrive.

Il est particulièrement utile lorsque les gens ont tendance à surinterpréter une information sans se demander à quel point l’événement était fréquent au départ.

Essayez un problème similaire sur le théorème de Bayes

Gardez le même test médical, mais faites passer le taux de maladie de 1%1\% à 10%10\%. La sensibilité et le taux de faux positifs restent les mêmes, mais le posterior change beaucoup. Faire ce calcul une fois est un moyen rapide de comprendre pourquoi le prior est important.

Besoin d'aide pour un problème ?

Envoyez votre question et obtenez une solution vérifiée, étape par étape, en quelques secondes.

Ouvrir GPAI Solver →