Der Satz von Bayes zeigt dir, wie du eine Wahrscheinlichkeit nach dem Beobachten neuer Hinweise aktualisierst. Wenn P(B)>0P(B) > 0 gilt, dann

P(AB)=P(BA)P(A)P(B)P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)}

Er beantwortet eine sehr konkrete Frage: Wie wahrscheinlich ist Ereignis AA jetzt, nachdem Ereignis BB eingetreten ist? Die Idee ist wichtig bei medizinischen Tests, Spam-Filtern und in jeder Situation, in der Hinweise irreführend sein können, wenn man nicht auch berücksichtigt, wie häufig das Ereignis von Anfang an war.

Die Formel des Satzes von Bayes einfach erklärt

Der Satz von Bayes kombiniert drei Bestandteile:

  • beginne mit dem, was du vor dem Hinweis geglaubt hast, P(A)P(A)
  • frage, wie gut der Hinweis zu diesem Ereignis passt, P(BA)P(B \mid A)
  • skaliere mit der Gesamtwahrscheinlichkeit des Hinweises, P(B)P(B)

Das Ergebnis P(AB)P(A \mid B) heißt Posterior-Wahrscheinlichkeit.

Was die einzelnen Teile der Formel bedeuten

In

P(AB)=P(BA)P(A)P(B)P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)}

ist P(A)P(A) die Prior-Wahrscheinlichkeit. Sie ist deine Ausgangswahrscheinlichkeit für AA, bevor du den neuen Hinweis verwendest.

P(BA)P(B \mid A) ist die Likelihood. Sie sagt dir, wie wahrscheinlich der Hinweis BB ist, wenn AA wahr ist.

P(B)P(B) ist die Wahrscheinlichkeit des Hinweises insgesamt. Dieser Term ist wichtig, weil manche Hinweise häufig auftreten, selbst wenn AA falsch ist.

P(AB)P(A \mid B) ist die Posterior-Wahrscheinlichkeit. Sie ist die aktualisierte Wahrscheinlichkeit von AA, nachdem du erfahren hast, dass BB eingetreten ist.

Warum der Nenner die Antwort verändert

Der Satz von Bayes belohnt nicht einfach nur Hinweise, die zu deiner Hypothese passen. Er fragt auch, ob derselbe Hinweis ohnehin oft auftritt.

Deshalb ist der Nenner P(B)P(B) wichtig. Wenn der Hinweis in vielen Fällen häufig vorkommt, sollte seine Beobachtung deine Einschätzung nicht stark verändern. Wenn der Hinweis selten ist, außer wenn AA wahr ist, kann er deine Einschätzung stark verschieben.

Kurzer Beweis aus der bedingten Wahrscheinlichkeit

Nimm an, dass P(B)>0P(B) > 0 gilt und wo nötig auch P(A)>0P(A) > 0. Nach der Definition der bedingten Wahrscheinlichkeit gilt

P(AB)=P(AB)P(B)P(A \mid B) = \frac{P(A \cap B)}{P(B)}

und

P(BA)=P(AB)P(A)P(B \mid A) = \frac{P(A \cap B)}{P(A)}

Aus der zweiten Gleichung folgt

P(AB)=P(BA)P(A)P(A \cap B) = P(B \mid A)P(A)

Setze das in die erste Gleichung ein:

P(AB)=P(BA)P(A)P(B)P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)}

Das ist der Satz von Bayes.

Durchgerechnetes Beispiel zum Satz von Bayes: ein positiver medizinischer Test

Angenommen, eine Krankheit betrifft 1%1\% einer Bevölkerung. Ein Test hat eine Sensitivität von 99%99\% und eine Falsch-Positiv-Rate von 5%5\%.

Sei

  • DD = die Person hat die Krankheit
  • ++ = der Test ist positiv

Dann gilt

P(D)=0.01P(D) = 0.01 P(+D)=0.99P(+ \mid D) = 0.99 P(+Dc)=0.05P(+ \mid D^c) = 0.05

Gesucht ist P(D+)P(D \mid +), also die Wahrscheinlichkeit, dass eine Person die Krankheit tatsächlich hat, wenn der Test positiv ist.

Bestimme zuerst die Gesamtwahrscheinlichkeit eines positiven Ergebnisses. Ein positiver Test kann auf zwei Arten entstehen: Die Person hat die Krankheit und testet positiv, oder die Person hat die Krankheit nicht und testet trotzdem positiv.

P(+)=P(+D)P(D)+P(+Dc)P(Dc)P(+) = P(+ \mid D)P(D) + P(+ \mid D^c)P(D^c) P(+)=(0.99)(0.01)+(0.05)(0.99)=0.0594P(+) = (0.99)(0.01) + (0.05)(0.99) = 0.0594

Wende jetzt den Satz von Bayes an:

P(D+)=P(+D)P(D)P(+)=(0.99)(0.01)0.0594P(D \mid +) = \frac{P(+ \mid D)P(D)}{P(+)} = \frac{(0.99)(0.01)}{0.0594} P(D+)=0.00990.0594=160.167P(D \mid +) = \frac{0.0099}{0.0594} = \frac{1}{6} \approx 0.167

Die Wahrscheinlichkeit, nach einem positiven Test die Krankheit tatsächlich zu haben, liegt also bei etwa 16.7%16.7\% und nicht bei 99%99\%. Der Test ist stark, aber die Krankheit ist selten, daher stammen die meisten positiven Ergebnisse trotzdem aus der viel größeren Gruppe ohne Krankheit.

Das ist die wichtigste Lehre, die viele Menschen übersehen: Selbst ein guter Test kann nur zu einer mäßigen Posterior-Wahrscheinlichkeit führen, wenn die Krankheit von vornherein selten ist.

Eine nützliche Zwei-Fälle-Version des Satzes von Bayes

Wenn der Hinweis aus zwei komplementären Fällen, AA und AcA^c, stammen kann, dann gilt

P(B)=P(BA)P(A)+P(BAc)P(Ac)P(B) = P(B \mid A)P(A) + P(B \mid A^c)P(A^c)

Setzt man das in den Satz von Bayes ein, erhält man

P(AB)=P(BA)P(A)P(BA)P(A)+P(BAc)P(Ac)P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B \mid A)P(A) + P(B \mid A^c)P(A^c)}

Diese Form ist in Aufgaben mit zwei Fällen oft die praktischste.

Häufige Fehler beim Satz von Bayes

P(AB)P(A \mid B) und P(BA)P(B \mid A) verwechseln

Diese Wahrscheinlichkeiten sind normalerweise nicht gleich. Ein positiver Test kann sehr wahrscheinlich sein, wenn eine Krankheit vorliegt, während die Krankheit nach einem positiven Test trotzdem noch eher unwahrscheinlich sein kann.

Die Basisrate ignorieren

Die Prior-Wahrscheinlichkeit P(A)P(A) ist wichtig. Wenn AA sehr selten ist, dann bringt selbst starke Evidenz die Posterior-Wahrscheinlichkeit vielleicht nicht so weit nach oben, wie man intuitiv erwartet.

P(B)P(B) zu eng berechnen

Der Nenner ist nicht nur ein übrig gebliebener Term. Er ist die Gesamtwahrscheinlichkeit des Hinweises und erfordert oft, Beiträge aus mehreren Fällen zu addieren.

Die Formel verwenden, wenn P(B)=0P(B) = 0

Der Satz von Bayes in dieser Form setzt P(B)>0P(B) > 0 voraus. Wenn der Hinweis die Wahrscheinlichkeit 00 hat, ist die bedingte Wahrscheinlichkeit P(AB)P(A \mid B) durch die Grundformel nicht definiert.

Wann der Satz von Bayes verwendet wird

Der Satz von Bayes taucht bei medizinischen Tests, Spam-Filtern, Zuverlässigkeitsanalysen, maschinellem Lernen und wissenschaftlicher Inferenz auf. In jedem Fall erscheint dieselbe Idee: Aktualisiere eine Einschätzung, wenn neue Informationen eintreffen.

Er ist besonders nützlich, wenn Menschen dazu neigen, auf Hinweise überzureagieren, ohne zu fragen, wie häufig das Ereignis überhaupt von Anfang an war.

Probiere eine ähnliche Aufgabe zum Satz von Bayes

Behalte denselben medizinischen Test bei, aber ändere die Krankheitsrate von 1%1\% auf 10%10\%. Sensitivität und Falsch-Positiv-Rate bleiben gleich, aber die Posterior-Wahrscheinlichkeit ändert sich stark. Diese Variante einmal durchzurechnen ist ein schneller Weg, um zu spüren, warum die Prior-Wahrscheinlichkeit wichtig ist.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →