Logistische Regression — Sigmoidfunktion & Klassifikation

Die logistische Regression ist ein Modell für die binäre Klassifikation. Sie kombiniert die Eingangsmerkmale zu einem linearen Score, schickt diesen Score durch die Sigmoidfunktion und erzeugt eine Zahl zwischen $0$ und $1$ , die unter dem angepassten Modell als geschätzte Wahrscheinlichkeit der positiven Klasse interpretiert wird.

Trotz ihres Namens wird die logistische Regression meist verwendet, um zwischen zwei Klassen zu entscheiden, etwa bestanden/nicht bestanden, Spam/kein Spam oder Kreditausfall/kein Kreditausfall. Das Wort „Regression“ bezieht sich auf die lineare Formel im Modell, nicht auf die Vorhersage eines kontinuierlichen Werts.

Formel der logistischen Regression im Überblick

Die binäre logistische Regression verwendet

p(y=1 \mid x) = \sigma(z), \qquad z = \beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n

mit der Sigmoidfunktion

\sigma(z) = \frac{1}{1 + e^{-z}}

Der lineare Teil $z$ kann jede reelle Zahl sein. Die Sigmoidfunktion presst diesen Wert in das Intervall $(0,1)$ , weshalb die Ausgabe als Wahrscheinlichkeitsschätzung verwendet werden kann.

Warum die Sigmoidfunktion wichtig ist

Wenn du den rohen linearen Score $z$ als Wahrscheinlichkeit verwenden würdest, könntest du unmögliche Werte wie $1.7$ oder $-0.4$ erhalten. Die Sigmoidfunktion behebt das, indem sie große negative Scores nahe an $0$ , große positive Scores nahe an $1$ und Scores nahe $0$ nahe an $0.5$ abbildet.

Das ergibt eine praktische Deutung:

wenn $z$ stark negativ ist, tendiert das Modell zu Klasse $0$
wenn $z$ nahe $0$ liegt, ist das Modell unsicher
wenn $z$ stark positiv ist, tendiert das Modell zu Klasse $1$

Die Kurve ist in der Nähe von $z=0$ am steilsten. Deshalb kann eine kleine Änderung im Score die Wahrscheinlichkeit nahe $0.5$ stark verändern, aber deutlich weniger, wenn die Wahrscheinlichkeit bereits nahe $0$ oder $1$ liegt.

Durchgerechnetes Beispiel zur logistischen Regression

Angenommen, ein Modell verwendet ein Merkmal $x$ und hat

z = -7 + 0.1x

Du kannst dir $x$ als Testergebnis und $y=1$ als „bestanden“ vorstellen. Die Koeffizienten sind hier nur ein Beispiel, um die Mechanik zu zeigen.

Wenn $x = 65$ , dann gilt

z = -7 + 0.1(65) = -0.5

Die vorhergesagte Wahrscheinlichkeit ist also

p(y=1 \mid x=65) = \sigma(-0.5) = \frac{1}{1 + e^{0.5}} \approx 0.378

Wenn $x = 80$ , dann gilt

z = -7 + 0.1(80) = 1

und

p(y=1 \mid x=80) = \sigma(1) = \frac{1}{1 + e^{-1}} \approx 0.731

Dasselbe Modell ergibt also bei $x=65$ eine Bestehenswahrscheinlichkeit von etwa $37.8\%$ und bei $x=80$ von etwa $73.1\%$ . Der Score ist um $1.5$ gestiegen, aber die endgültige Ausgabe blieb zwischen $0$ und $1$ , weil die Sigmoidfunktion das Ergebnis zu einer Wahrscheinlichkeit krümmt.

Wenn du nun einen Schwellenwert von $0.5$ wählst, wird der erste Fall als Klasse $0$ und der zweite als Klasse $1$ klassifiziert. Dieser letzte Schritt hängt vom Schwellenwert ab. Die Wahrscheinlichkeitsschätzung selbst nicht.

Eine nützliche Abkürzung: Bei einem Schwellenwert von $0.5$ wechselt die Klasse genau dann, wenn $z=0$ ist, denn $\sigma(0)=0.5$ .

Wie logistische Regression zu einem Klassifikator wird

Die Modellausgabe ist eine Wahrscheinlichkeitsschätzung. Eine Klassifikationsregel wird erst danach hinzugefügt.

Zum Beispiel mit dem Schwellenwert $0.5$ :

sage Klasse $1$ vorher, wenn $p(y=1 \mid x) \ge 0.5$
sage Klasse $0$ vorher, wenn $p(y=1 \mid x) < 0.5$

Aber $0.5$ ist nicht immer der richtige Schwellenwert. Wenn falsch positive und falsch negative Vorhersagen unterschiedliche Kosten haben oder die Klassen stark unausgeglichen sind, kann ein anderer Schwellenwert besser funktionieren.

Was die Koeffizienten bedeuten

Das Vorzeichen eines Koeffizienten zeigt dir die Richtung des Effekts auf den linearen Score $z$ :

wenn $\beta_i > 0$ , erhöht eine Zunahme von $x_i$ den Wert von $z$ und erhöht tendenziell $p(y=1 \mid x)$
wenn $\beta_i < 0$ , verringert eine Zunahme von $x_i$ den Wert von $z$ und verringert tendenziell $p(y=1 \mid x)$

Dieser Teil ist einfach. Der feinere Punkt ist, dass sich die Wahrscheinlichkeit nicht linear mit dem Merkmal ändert, weil die Sigmoidkurve keine Gerade ist.

Bei der Standardform der logistischen Regression liegt das lineare Modell auf der Log-Odds-Skala:

\log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n

Das bedeutet: Jede Erhöhung eines Merkmals um eine Einheit verändert die Log-Odds linear, wenn die anderen Merkmale konstant gehalten werden. Das ist präziser, als zu sagen, dass sich die Wahrscheinlichkeit um einen festen Betrag ändert.

Häufige Fehler bei der logistischen Regression

Die Ausgabe als sichere Klasse behandeln

Eine Vorhersage wie $0.73$ bedeutet nicht, dass das Ereignis sicher eintreten wird. Sie bedeutet, dass das Modell für diese Eingabe der positiven Klasse eine geschätzte Wahrscheinlichkeit von etwa $73\%$ zuordnet.

Annehmen, dass der Schwellenwert $0.5$ sein muss

$0.5$ ist üblich, aber es ist eine Wahl und kein Gesetz. Der beste Schwellenwert hängt von der Anwendung ab.

Denken, dass sich die Wahrscheinlichkeit linear ändert

Der Score $z$ ist linear in den Eingaben, die Wahrscheinlichkeit aber nicht. Eine Änderung eines Merkmals um eine Einheit kann nahe $p=0.5$ einen anderen Effekt haben als nahe $p=0.95$ .

Vergessen, dass das Modell binär ist, sofern es nicht erweitert wird

Die grundlegende logistische Regression behandelt zwei Klassen. Es gibt Mehrklassen-Versionen, aber das sind Erweiterungen und nicht dieselbe binäre Struktur in anderer Schreibweise.

Wann logistische Regression verwendet wird

Logistische Regression wird oft verwendet, wenn die Zielvariable Ja/Nein ist, etwa bei Spam-Erkennung, dem Vorliegen einer Krankheit, Kundenabwanderung, Kreditausfall oder bestanden/nicht bestanden.

Sie ist weiterhin beliebt, weil sie einfach, schnell und einigermaßen gut interpretierbar ist. Besonders nützlich ist sie, wenn du einen Basis-Klassifikator möchtest, wenn der Datensatz nicht riesig ist oder wenn du geschätzte Wahrscheinlichkeiten statt nur harter Labels brauchst.

Eine einfache Vorstellung davon

Stell dir die logistische Regression als eine Maschine mit zwei Schritten vor:

Hinweise mit einem linearen Score aufsummieren.
Diesen Score mit der Sigmoidfunktion in eine Wahrscheinlichkeit umwandeln.

Dieses Bild reicht aus, um die meisten Einführungsbeispiele zu verstehen und zu sehen, warum die logistische Regression zwischen linearen Modellen und Klassifikationsaufgaben steht.

Probiere eine ähnliche Aufgabe zur logistischen Regression aus

Wähle einen einfachen Score wie

z = -3 + 0.5x

Berechne $\sigma(z)$ für einige Werte von $x$ , zum Beispiel $2$ , $6$ und $10$ . Beobachte, wie sich der lineare Score gleichmäßig ändert, während sich die Wahrscheinlichkeit entlang einer S-förmigen Kurve krümmt. Probiere dann einen anderen Schwellenwert aus und schau, wann sich die vorhergesagte Klasse ändert.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →