Regressionsanalyse — einfache, multiple und logistische Regression

Die Regressionsanalyse erklärt, wie sich eine Zielvariable verändert, wenn sich ein oder mehrere Prädiktoren ändern. Verwende die einfache lineare Regression für einen Prädiktor und eine numerische Zielvariable, die multiple lineare Regression für mehrere Prädiktoren und eine numerische Zielvariable und die logistische Regression für eine binäre Zielvariable wie bestanden/nicht bestanden.

Diese Unterscheidung beantwortet die wichtigste Suchfrage schnell:

Einfache lineare Regression: ein Prädiktor, numerische Zielvariable.
Multiple lineare Regression: mehrere Prädiktoren, numerische Zielvariable.
Logistische Regression: binäre Zielvariable wie ja/nein, bestanden/nicht bestanden oder geklickt/nicht geklickt.

Danach beginnt die eigentliche Arbeit: die Interpretation. Ein Koeffizient bedeutet nur dann das, was du denkst, wenn das Modell zum Typ der Zielvariable passt und die Daten einigermaßen gut beschreibt.

Was die Regressionsanalyse macht

Regression zeichnet nicht einfach nur eine Linie durch Punkte. Sie erstellt eine Regel, die Prädiktoren mit einem erwarteten Ergebnis verknüpft, damit du Muster erklären oder Vorhersagen treffen kannst.

In der linearen Regression ist diese Regel ein Geradenmodell für den Erwartungswert der Zielvariable. In der logistischen Regression wird das Modell für Wahrscheinlichkeiten aufgebaut, sodass die vorhergesagten Werte zwischen $0$ und $1$ bleiben.

Einfache lineare Regression: ein Prädiktor, numerische Zielvariable

Die einfache lineare Regression verwendet einen Prädiktor $x$ und eine numerische Zielvariable $y$ :

\hat{y} = b_0 + b_1x

Hier ist $\hat{y}$ der vorhergesagte Wert, $b_0$ der Achsenabschnitt und $b_1$ die Steigung.

Die Steigung $b_1$ gibt die vorhergesagte Änderung in $y$ bei einer Erhöhung von $x$ um eine Einheit an, wenn ein linearer Zusammenhang im interessierenden Bereich eine sinnvolle Näherung ist.

Multiple lineare Regression: mehrere Prädiktoren, eine numerische Zielvariable

Die multiple lineare Regression behält dieselbe Grundidee bei, verwendet aber mehr als einen Prädiktor:

\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

Das ist nützlich, wenn ein einzelner Prädiktor zu einfach ist. Reale Ergebnisse hängen oft gleichzeitig von mehreren Faktoren ab.

Die wichtigste Änderung bei der Interpretation ist entscheidend: $b_1$ ist die vorhergesagte Änderung in $y$ bei einer Erhöhung von $x_1$ um eine Einheit, während die anderen aufgenommenen Prädiktoren konstant gehalten werden.

Dieses „Konstanthalten der anderen Prädiktoren“ macht die multiple Regression anders als eine Reihe von Vergleichen mit nur einer Variablen.

Logistische Regression: binäre Zielvariablen und Wahrscheinlichkeiten

Die logistische Regression ist für eine binäre Zielvariable gedacht, nicht für eine numerische. Wenn das Ergebnis zum Beispiel zugelassen/nicht zugelassen, abgewandert/geblieben oder bestanden/nicht bestanden ist, ist die lineare Regression meist das falsche Werkzeug.

Statt die Zielvariable selbst als Gerade zu modellieren, modelliert die logistische Regression die Log-Odds des Ergebnisses:

\log\left(\frac{p}{1-p}\right) = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

wobei $p = P(Y=1 \mid x_1, x_2, \ldots, x_p)$ .

Die linke Seite sind die Log-Odds, nicht die Wahrscheinlichkeit selbst. Das ist wichtig, weil Wahrscheinlichkeiten zwischen $0$ und $1$ bleiben müssen: Ein einfaches Geradenmodell kann unmögliche Werte wie $1.2$ oder $-0.1$ vorhersagen, die logistische Regression aber nicht.

Durchgerechnetes Beispiel: eine Punktzahl vorhersagen vs. bestanden/nicht bestanden vorhersagen

Angenommen, eine Lehrkraft möchte die Leistung von Studierenden untersuchen.

Wenn die Zielvariable die Prüfungspunktzahl ist und der einzige Prädiktor die Lernstunden sind, könnte ein einfaches lineares Modell sein:

\hat{y} = 42 + 5x

Wenn ein Student oder eine Studentin $6$ Stunden lernt, ist die vorhergesagte Punktzahl

\hat{y} = 42 + 5(6) = 72

Hier sagt die Steigung aus, dass die vorhergesagte Punktzahl pro zusätzlicher Lernstunde um $5$ Punkte steigt, wenn das lineare Modell gut passt.

Angenommen, die Lehrkraft berücksichtigt jetzt zusätzlich Schlafstunden und die Anzahl bearbeiteter Übungsquizze. Ein multiples Regressionsmodell könnte sein:

\hat{y} = 20 + 4x_1 + 2x_2 + 1.5x_3

wobei $x_1$ die Lernstunden, $x_2$ die Schlafstunden und $x_3$ die abgeschlossenen Übungsquizze sind.

Der Koeffizient $4$ hat jetzt eine spezifischere Bedeutung: Er ist die vorhergesagte Änderung der Punktzahl für eine zusätzliche Lernstunde, wobei Schlaf und Übungsquizze konstant gehalten werden.

Jetzt ändern wir die Frage. Statt eine Punktzahl vorherzusagen, möchte die Lehrkraft die Wahrscheinlichkeit modellieren, dass ein Student oder eine Studentin besteht. Damit ist die Zielvariable binär, also ist die logistische Regression die naheliegende Wahl:

\log\left(\frac{p}{1-p}\right) = -6 + 0.8x_1 + 0.5x_2

Wenn ein Student oder eine Studentin $6$ Stunden lernt und $7$ Stunden schläft, dann gilt

-6 + 0.8(6) + 0.5(7) = 2.3

also ist die vorhergesagte Wahrscheinlichkeit

p = \frac{1}{1 + e^{-2.3}} \approx 0.91

Dieses Modell sagt eine Bestehenswahrscheinlichkeit von etwa $91\%$ voraus. Die genauen Zahlen sind nur ein Beispiel. Die zentrale Idee ist: Wenn sich die Zielvariable von einer Punktzahl zu bestanden/nicht bestanden ändert, sollte sich auch die Regressionsfamilie ändern.

Häufige Fehler in der Regressionsanalyse

Lineare Regression für eine binäre Zielvariable verwenden

Wenn die Zielvariable nur $0$ oder $1$ annehmen kann, ist die logistische Regression meist besser geeignet, weil sie für Wahrscheinlichkeiten entwickelt wurde. Die lineare Regression kann in einigen speziellen Situationen als Näherung verwendet werden, kann aber auch schlechte Wahrscheinlichkeitsvorhersagen liefern.

Regression als Beweis für Kausalität behandeln

Regression kann Zusammenhänge beschreiben und Vorhersagen unterstützen. Sie beweist für sich genommen nicht, dass eine Veränderung einer Variablen die Zielvariable verursacht.

Modellannahmen ignorieren

Ein Koeffizient bedeutet nur dann das, was du denkst, wenn das gewählte Modell die Daten sinnvoll beschreibt. Bei der linearen Regression heißt das oft zu prüfen, ob eine lineare Zusammenfassung sinnvoll ist und ob die Fehler ein Muster zeigen, das das Modell übersehen hat.

Koeffizienten der multiplen Regression überinterpretieren

In der multiplen Regression ist ein Koeffizient von den anderen aufgenommenen Prädiktoren abhängig. Wenn wichtige Variablen fehlen oder Prädiktoren stark miteinander verflochten sind, wird die Interpretation weniger stabil.

Wo die Regressionsanalyse eingesetzt wird

Regression wird verwendet, wenn du Variation erklären, bedingte Zusammenhänge schätzen oder aus Daten Vorhersagen machen willst.

Du findest sie in der Unternehmensprognose, Medizin, Sozialwissenschaft, Qualitätskontrolle, Bildung und im maschinellen Lernen. Die genaue Form hängt von der Zielvariable ab: Numerische Zielvariablen führen oft zu linearen Modellen, binäre Zielvariablen oft zu logistischen Modellen.

Wie man das richtige Regressionsmodell auswählt

Stelle zuerst diese zwei Fragen:

Ist die Zielvariable numerisch oder binär?
Wie viele Prädiktoren möchte ich einbeziehen?

Wenn die Zielvariable numerisch ist, beginne mit linearer Regression. Bei einem Prädiktor ist es eine einfache lineare Regression. Bei mehreren ist es eine multiple lineare Regression.

Wenn die Zielvariable binär ist, beginne mit logistischer Regression.

Das garantiert noch kein gutes Modell, bringt dich aber schnell in die richtige Modellfamilie.

Probiere ein ähnliches Problem aus

Nimm einen kleinen Datensatz und stelle zwei verschiedene Fragen dazu. Sage zuerst eine numerische Zielvariable voraus, zum Beispiel eine Punktzahl. Wandle dann die Zielvariable in eine binäre Version um, zum Beispiel bestanden oder nicht bestanden. Dieser direkte Vergleich ist einer der schnellsten Wege, damit Regressionsanalyse wirklich verständlich wird.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →