Die logistische Regression ist ein Modell für die binäre Klassifikation. Sie kombiniert die Eingangsmerkmale zu einem linearen Score, schickt diesen Score durch die Sigmoidfunktion und erzeugt eine Zahl zwischen 00 und 11, die unter dem angepassten Modell als geschätzte Wahrscheinlichkeit der positiven Klasse interpretiert wird.

Trotz ihres Namens wird die logistische Regression meist verwendet, um zwischen zwei Klassen zu entscheiden, etwa bestanden/nicht bestanden, Spam/kein Spam oder Kreditausfall/kein Kreditausfall. Das Wort „Regression“ bezieht sich auf die lineare Formel im Modell, nicht auf die Vorhersage eines kontinuierlichen Werts.

Formel der logistischen Regression im Überblick

Die binäre logistische Regression verwendet

p(y=1x)=σ(z),z=β0+β1x1++βnxnp(y=1 \mid x) = \sigma(z), \qquad z = \beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n

mit der Sigmoidfunktion

σ(z)=11+ez\sigma(z) = \frac{1}{1 + e^{-z}}

Der lineare Teil zz kann jede reelle Zahl sein. Die Sigmoidfunktion presst diesen Wert in das Intervall (0,1)(0,1), weshalb die Ausgabe als Wahrscheinlichkeitsschätzung verwendet werden kann.

Warum die Sigmoidfunktion wichtig ist

Wenn du den rohen linearen Score zz als Wahrscheinlichkeit verwenden würdest, könntest du unmögliche Werte wie 1.71.7 oder 0.4-0.4 erhalten. Die Sigmoidfunktion behebt das, indem sie große negative Scores nahe an 00, große positive Scores nahe an 11 und Scores nahe 00 nahe an 0.50.5 abbildet.

Das ergibt eine praktische Deutung:

  • wenn zz stark negativ ist, tendiert das Modell zu Klasse 00
  • wenn zz nahe 00 liegt, ist das Modell unsicher
  • wenn zz stark positiv ist, tendiert das Modell zu Klasse 11

Die Kurve ist in der Nähe von z=0z=0 am steilsten. Deshalb kann eine kleine Änderung im Score die Wahrscheinlichkeit nahe 0.50.5 stark verändern, aber deutlich weniger, wenn die Wahrscheinlichkeit bereits nahe 00 oder 11 liegt.

Durchgerechnetes Beispiel zur logistischen Regression

Angenommen, ein Modell verwendet ein Merkmal xx und hat

z=7+0.1xz = -7 + 0.1x

Du kannst dir xx als Testergebnis und y=1y=1 als „bestanden“ vorstellen. Die Koeffizienten sind hier nur ein Beispiel, um die Mechanik zu zeigen.

Wenn x=65x = 65, dann gilt

z=7+0.1(65)=0.5z = -7 + 0.1(65) = -0.5

Die vorhergesagte Wahrscheinlichkeit ist also

p(y=1x=65)=σ(0.5)=11+e0.50.378p(y=1 \mid x=65) = \sigma(-0.5) = \frac{1}{1 + e^{0.5}} \approx 0.378

Wenn x=80x = 80, dann gilt

z=7+0.1(80)=1z = -7 + 0.1(80) = 1

und

p(y=1x=80)=σ(1)=11+e10.731p(y=1 \mid x=80) = \sigma(1) = \frac{1}{1 + e^{-1}} \approx 0.731

Dasselbe Modell ergibt also bei x=65x=65 eine Bestehenswahrscheinlichkeit von etwa 37.8%37.8\% und bei x=80x=80 von etwa 73.1%73.1\%. Der Score ist um 1.51.5 gestiegen, aber die endgültige Ausgabe blieb zwischen 00 und 11, weil die Sigmoidfunktion das Ergebnis zu einer Wahrscheinlichkeit krümmt.

Wenn du nun einen Schwellenwert von 0.50.5 wählst, wird der erste Fall als Klasse 00 und der zweite als Klasse 11 klassifiziert. Dieser letzte Schritt hängt vom Schwellenwert ab. Die Wahrscheinlichkeitsschätzung selbst nicht.

Eine nützliche Abkürzung: Bei einem Schwellenwert von 0.50.5 wechselt die Klasse genau dann, wenn z=0z=0 ist, denn σ(0)=0.5\sigma(0)=0.5.

Wie logistische Regression zu einem Klassifikator wird

Die Modellausgabe ist eine Wahrscheinlichkeitsschätzung. Eine Klassifikationsregel wird erst danach hinzugefügt.

Zum Beispiel mit dem Schwellenwert 0.50.5:

  • sage Klasse 11 vorher, wenn p(y=1x)0.5p(y=1 \mid x) \ge 0.5
  • sage Klasse 00 vorher, wenn p(y=1x)<0.5p(y=1 \mid x) < 0.5

Aber 0.50.5 ist nicht immer der richtige Schwellenwert. Wenn falsch positive und falsch negative Vorhersagen unterschiedliche Kosten haben oder die Klassen stark unausgeglichen sind, kann ein anderer Schwellenwert besser funktionieren.

Was die Koeffizienten bedeuten

Das Vorzeichen eines Koeffizienten zeigt dir die Richtung des Effekts auf den linearen Score zz:

  • wenn βi>0\beta_i > 0, erhöht eine Zunahme von xix_i den Wert von zz und erhöht tendenziell p(y=1x)p(y=1 \mid x)
  • wenn βi<0\beta_i < 0, verringert eine Zunahme von xix_i den Wert von zz und verringert tendenziell p(y=1x)p(y=1 \mid x)

Dieser Teil ist einfach. Der feinere Punkt ist, dass sich die Wahrscheinlichkeit nicht linear mit dem Merkmal ändert, weil die Sigmoidkurve keine Gerade ist.

Bei der Standardform der logistischen Regression liegt das lineare Modell auf der Log-Odds-Skala:

log(p1p)=β0+β1x1++βnxn\log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n

Das bedeutet: Jede Erhöhung eines Merkmals um eine Einheit verändert die Log-Odds linear, wenn die anderen Merkmale konstant gehalten werden. Das ist präziser, als zu sagen, dass sich die Wahrscheinlichkeit um einen festen Betrag ändert.

Häufige Fehler bei der logistischen Regression

Die Ausgabe als sichere Klasse behandeln

Eine Vorhersage wie 0.730.73 bedeutet nicht, dass das Ereignis sicher eintreten wird. Sie bedeutet, dass das Modell für diese Eingabe der positiven Klasse eine geschätzte Wahrscheinlichkeit von etwa 73%73\% zuordnet.

Annehmen, dass der Schwellenwert 0.50.5 sein muss

0.50.5 ist üblich, aber es ist eine Wahl und kein Gesetz. Der beste Schwellenwert hängt von der Anwendung ab.

Denken, dass sich die Wahrscheinlichkeit linear ändert

Der Score zz ist linear in den Eingaben, die Wahrscheinlichkeit aber nicht. Eine Änderung eines Merkmals um eine Einheit kann nahe p=0.5p=0.5 einen anderen Effekt haben als nahe p=0.95p=0.95.

Vergessen, dass das Modell binär ist, sofern es nicht erweitert wird

Die grundlegende logistische Regression behandelt zwei Klassen. Es gibt Mehrklassen-Versionen, aber das sind Erweiterungen und nicht dieselbe binäre Struktur in anderer Schreibweise.

Wann logistische Regression verwendet wird

Logistische Regression wird oft verwendet, wenn die Zielvariable Ja/Nein ist, etwa bei Spam-Erkennung, dem Vorliegen einer Krankheit, Kundenabwanderung, Kreditausfall oder bestanden/nicht bestanden.

Sie ist weiterhin beliebt, weil sie einfach, schnell und einigermaßen gut interpretierbar ist. Besonders nützlich ist sie, wenn du einen Basis-Klassifikator möchtest, wenn der Datensatz nicht riesig ist oder wenn du geschätzte Wahrscheinlichkeiten statt nur harter Labels brauchst.

Eine einfache Vorstellung davon

Stell dir die logistische Regression als eine Maschine mit zwei Schritten vor:

  1. Hinweise mit einem linearen Score aufsummieren.
  2. Diesen Score mit der Sigmoidfunktion in eine Wahrscheinlichkeit umwandeln.

Dieses Bild reicht aus, um die meisten Einführungsbeispiele zu verstehen und zu sehen, warum die logistische Regression zwischen linearen Modellen und Klassifikationsaufgaben steht.

Probiere eine ähnliche Aufgabe zur logistischen Regression aus

Wähle einen einfachen Score wie

z=3+0.5xz = -3 + 0.5x

Berechne σ(z)\sigma(z) für einige Werte von xx, zum Beispiel 22, 66 und 1010. Beobachte, wie sich der lineare Score gleichmäßig ändert, während sich die Wahrscheinlichkeit entlang einer S-förmigen Kurve krümmt. Probiere dann einen anderen Schwellenwert aus und schau, wann sich die vorhergesagte Klasse ändert.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →