Die lineare Regression ist eine Methode, um zu beschreiben, wie sich eine Variable mit einer anderen verändert, und zwar mithilfe einer bestmöglichen Geraden. Bei der einfachen linearen Regression mit einer Eingangsvariable xx und einer Ausgangsvariable yy lautet das Modell

y^=b0+b1x\hat{y} = b_0 + b_1x

Hier ist y^\hat{y} der vorhergesagte Wert, b1b_1 die Steigung und b0b_0 der Achsenabschnitt. Die übliche Anpassungsmethode ist die Methode der kleinsten Quadrate, die die Gerade auswählt, für die die quadrierten Residuen möglichst klein sind:

i=1n(yiy^i)2=i=1n(yi(b0+b1xi))2\sum_{i=1}^n \left(y_i - \hat{y}_i\right)^2 = \sum_{i=1}^n \left(y_i - (b_0 + b_1x_i)\right)^2

Wenn du dir nur die Grundidee merken willst, dann diese: Die Steigung gibt die vom Modell vorhergesagte Änderung in yy bei einer Erhöhung von xx um eine Einheit an, solange ein lineares Modell sinnvoll passt.

Gleichung der linearen Regression: Was sie aussagt

Die Steigung b1b_1 gibt die vorhergesagte Änderung in yy an, wenn xx um 11 steigt, sofern ein lineares Modell die Daten sinnvoll beschreibt. Der Achsenabschnitt b0b_0 ist der vorhergesagte Wert von yy, wenn x=0x = 0.

Das Wort „vorhergesagt“ ist wichtig. Eine Regressionsgerade verläuft normalerweise nicht durch jeden Punkt. Stattdessen gleicht sie die Fehler über alle Punkte hinweg aus und fasst damit den Trend zusammen, statt jede einzelne Beobachtung exakt zu treffen.

Formel der linearen Regression für b0b_0 und b1b_1

Für die einfache lineare Regression können die Koeffizienten der kleinsten Quadrate, sofern die xx-Werte nicht alle gleich sind, so geschrieben werden:

b1=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2b_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}

und

b0=yˉb1xˉb_0 = \bar{y} - b_1\bar{x}

Hier ist xˉ\bar{x} der Mittelwert der xx-Werte und yˉ\bar{y} der Mittelwert der yy-Werte. Diese Formeln gelten für die einfache lineare Regression. Wenn du mehr als eine Eingangsvariable hast, ändert sich der Ansatz.

Warum die Methode der kleinsten Quadrate quadrierte Residuen verwendet

Stell dir die Datenpunkte als Punktwolke in einem Streudiagramm vor. Viele Geraden könnten nahe an dieser Wolke verlaufen. Die lineare Regression wählt die Gerade, bei der die vertikalen Abweichungen, die Residuen genannt werden, insgesamt klein bleiben.

Das Quadrieren der Residuen hat zwei nützliche Effekte. Positive und negative Fehler heben sich dadurch nicht gegenseitig auf, und große Abweichungen werden stärker gewichtet.

Einfaches Beispiel zur linearen Regression

Angenommen, die Datenpunkte sind (1,2)(1,2), (2,2)(2,2), (3,4)(3,4) und (4,4)(4,4). Wir passen eine einfache lineare Regressionsgerade an.

Bestimme zuerst die Mittelwerte:

xˉ=1+2+3+44=2.5\bar{x} = \frac{1+2+3+4}{4} = 2.5 yˉ=2+2+4+44=3\bar{y} = \frac{2+2+4+4}{4} = 3

Berechne nun die Steigung:

b1=(1.5)(1)+(0.5)(1)+(0.5)(1)+(1.5)(1)(1.5)2+(0.5)2+(0.5)2+(1.5)2b_1 = \frac{(-1.5)(-1)+(-0.5)(-1)+(0.5)(1)+(1.5)(1)}{(-1.5)^2+(-0.5)^2+(0.5)^2+(1.5)^2} b1=45=0.8b_1 = \frac{4}{5} = 0.8

Berechne dann den Achsenabschnitt:

b0=yˉb1xˉ=30.8(2.5)=1b_0 = \bar{y} - b_1\bar{x} = 3 - 0.8(2.5) = 1

Damit lautet die Regressionsgleichung

y^=1+0.8x\hat{y} = 1 + 0.8x

Für x=5x=5 sagt das Modell voraus:

y^=1+0.8(5)=5\hat{y} = 1 + 0.8(5) = 5

Du kannst auch ein Residuum überprüfen. Bei x=2x=2 ist der vorhergesagte Wert

y^=1+0.8(2)=2.6\hat{y} = 1 + 0.8(2) = 2.6

Der tatsächliche Wert ist 22, also ist das Residuum

yy^=22.6=0.6y-\hat{y} = 2 - 2.6 = -0.6

Dieser Punkt liegt also 0.60.6 Einheiten unter der Regressionsgeraden. Ein einzelnes Residuum sagt noch nicht, ob das gesamte Modell gut ist, aber es zeigt, wie die Regression Fehler misst.

Häufige Fehler bei der linearen Regression

Ein Fehler ist die Annahme, dass die Gerade durch jeden Punkt gehen muss. Bei der Regression geht es um die beste Anpassung, nicht um eine perfekte Anpassung.

Ein weiterer Fehler ist, die Steigung als exakte Regel für jeden einzelnen Datenpunkt zu lesen. Die Steigung ist eine durchschnittliche vorhergesagte Änderung aus dem Modell.

Ein dritter Fehler ist, Regression als Beweis für Kausalität zu behandeln. Ein starkes lineares Muster kann Vorhersagen unterstützen oder Zusammenhänge beschreiben, erklärt aber nicht von selbst, warum sich die Variablen gemeinsam verändern.

Außerdem ist es leicht, Vorhersagen außerhalb des beobachteten Datenbereichs zu sehr zu vertrauen. Extrapolation kann scheitern, selbst wenn die angepasste Gerade innerhalb des ursprünglichen Bereichs gut aussieht.

Wann man lineare Regression verwendet

Lineare Regression wird verwendet, wenn eine Zusammenfassung durch eine Gerade nützlich ist und der Zusammenhang in dem interessierenden Bereich zumindest ungefähr linear ist. Typische Anwendungen sind zum Beispiel die Schätzung des Preises aus der Größe, der Punktzahl aus der Lernzeit oder des Outputs aus dem Input unter stabilen Bedingungen.

Sie ist besonders nützlich, wenn du ein gut interpretierbares Modell möchtest. Steigung, Achsenabschnitt und Residuen sind einfach genug, um sie zu erklären, ohne zu verschleiern, was das Modell macht.

Ein schneller Check, bevor du der Geraden vertraust

Bevor du eine Regressionsgerade verwendest, stelle dir zwei Fragen. Sieht ein Streudiagramm ungefähr linear aus? Ergibt die Steigung im Kontext eine sinnvolle Aussage statt einer irreführenden? Wenn eine der Antworten nein ist, ist ein anderes Modell möglicherweise besser.

Probiere eine ähnliche Aufgabe

Wähle vier Punkte, skizziere sie und passe mit einem Taschenrechner oder einer Software eine Gerade an. Vergleiche dann die vorhergesagten Werte mit den tatsächlichen. Ein Blick auf die Residuen ist oft der schnellste Weg, um zu verstehen, was die Regressionsgerade wirklich macht.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →