Die lineare Regression ist eine Methode, um zu beschreiben, wie sich eine Variable mit einer anderen verändert, und zwar mithilfe einer bestmöglichen Geraden. Bei der einfachen linearen Regression mit einer Eingangsvariable und einer Ausgangsvariable lautet das Modell
Hier ist der vorhergesagte Wert, die Steigung und der Achsenabschnitt. Die übliche Anpassungsmethode ist die Methode der kleinsten Quadrate, die die Gerade auswählt, für die die quadrierten Residuen möglichst klein sind:
Wenn du dir nur die Grundidee merken willst, dann diese: Die Steigung gibt die vom Modell vorhergesagte Änderung in bei einer Erhöhung von um eine Einheit an, solange ein lineares Modell sinnvoll passt.
Gleichung der linearen Regression: Was sie aussagt
Die Steigung gibt die vorhergesagte Änderung in an, wenn um steigt, sofern ein lineares Modell die Daten sinnvoll beschreibt. Der Achsenabschnitt ist der vorhergesagte Wert von , wenn .
Das Wort „vorhergesagt“ ist wichtig. Eine Regressionsgerade verläuft normalerweise nicht durch jeden Punkt. Stattdessen gleicht sie die Fehler über alle Punkte hinweg aus und fasst damit den Trend zusammen, statt jede einzelne Beobachtung exakt zu treffen.
Formel der linearen Regression für und
Für die einfache lineare Regression können die Koeffizienten der kleinsten Quadrate, sofern die -Werte nicht alle gleich sind, so geschrieben werden:
und
Hier ist der Mittelwert der -Werte und der Mittelwert der -Werte. Diese Formeln gelten für die einfache lineare Regression. Wenn du mehr als eine Eingangsvariable hast, ändert sich der Ansatz.
Warum die Methode der kleinsten Quadrate quadrierte Residuen verwendet
Stell dir die Datenpunkte als Punktwolke in einem Streudiagramm vor. Viele Geraden könnten nahe an dieser Wolke verlaufen. Die lineare Regression wählt die Gerade, bei der die vertikalen Abweichungen, die Residuen genannt werden, insgesamt klein bleiben.
Das Quadrieren der Residuen hat zwei nützliche Effekte. Positive und negative Fehler heben sich dadurch nicht gegenseitig auf, und große Abweichungen werden stärker gewichtet.
Einfaches Beispiel zur linearen Regression
Angenommen, die Datenpunkte sind , , und . Wir passen eine einfache lineare Regressionsgerade an.
Bestimme zuerst die Mittelwerte:
Berechne nun die Steigung:
Berechne dann den Achsenabschnitt:
Damit lautet die Regressionsgleichung
Für sagt das Modell voraus:
Du kannst auch ein Residuum überprüfen. Bei ist der vorhergesagte Wert
Der tatsächliche Wert ist , also ist das Residuum
Dieser Punkt liegt also Einheiten unter der Regressionsgeraden. Ein einzelnes Residuum sagt noch nicht, ob das gesamte Modell gut ist, aber es zeigt, wie die Regression Fehler misst.
Häufige Fehler bei der linearen Regression
Ein Fehler ist die Annahme, dass die Gerade durch jeden Punkt gehen muss. Bei der Regression geht es um die beste Anpassung, nicht um eine perfekte Anpassung.
Ein weiterer Fehler ist, die Steigung als exakte Regel für jeden einzelnen Datenpunkt zu lesen. Die Steigung ist eine durchschnittliche vorhergesagte Änderung aus dem Modell.
Ein dritter Fehler ist, Regression als Beweis für Kausalität zu behandeln. Ein starkes lineares Muster kann Vorhersagen unterstützen oder Zusammenhänge beschreiben, erklärt aber nicht von selbst, warum sich die Variablen gemeinsam verändern.
Außerdem ist es leicht, Vorhersagen außerhalb des beobachteten Datenbereichs zu sehr zu vertrauen. Extrapolation kann scheitern, selbst wenn die angepasste Gerade innerhalb des ursprünglichen Bereichs gut aussieht.
Wann man lineare Regression verwendet
Lineare Regression wird verwendet, wenn eine Zusammenfassung durch eine Gerade nützlich ist und der Zusammenhang in dem interessierenden Bereich zumindest ungefähr linear ist. Typische Anwendungen sind zum Beispiel die Schätzung des Preises aus der Größe, der Punktzahl aus der Lernzeit oder des Outputs aus dem Input unter stabilen Bedingungen.
Sie ist besonders nützlich, wenn du ein gut interpretierbares Modell möchtest. Steigung, Achsenabschnitt und Residuen sind einfach genug, um sie zu erklären, ohne zu verschleiern, was das Modell macht.
Ein schneller Check, bevor du der Geraden vertraust
Bevor du eine Regressionsgerade verwendest, stelle dir zwei Fragen. Sieht ein Streudiagramm ungefähr linear aus? Ergibt die Steigung im Kontext eine sinnvolle Aussage statt einer irreführenden? Wenn eine der Antworten nein ist, ist ein anderes Modell möglicherweise besser.
Probiere eine ähnliche Aufgabe
Wähle vier Punkte, skizziere sie und passe mit einem Taschenrechner oder einer Software eine Gerade an. Vergleiche dann die vorhergesagten Werte mit den tatsächlichen. Ein Blick auf die Residuen ist oft der schnellste Weg, um zu verstehen, was die Regressionsgerade wirklich macht.
Brauchst du Hilfe bei einer Aufgabe?
Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.
GPAI Solver öffnen →