Backpropagation — Wie neuronale Netze lernen

Backpropagation ist die Methode, mit der neuronale Netze Gradienten berechnen: also wie stark sich der Verlust ändern würde, wenn man jedes Gewicht oder jeden Bias ein wenig verändert. Einfach gesagt zeigt sie dem Modell, welche Parameter die Vorhersage in die falsche Richtung verschoben haben und um wie viel.

Die Kurzfassung ist einfach: Führe das Netz vorwärts aus, miss den Fehler und gehe dann mit der Kettenregel rückwärts durch dieselbe Berechnung. Dadurch wird auch ein tiefes Modell handhabbar, weil jede Schicht nur eine kleine lokale Ableitung beitragen muss.

Was Backpropagation berechnet

Backpropagation aktualisiert Parameter nicht selbst. Sie berechnet Gradienten wie $\frac{\partial L}{\partial w}$ und $\frac{\partial L}{\partial b}$ , wobei $L$ der Verlust ist. Ein Optimierer wie der Gradientenabstieg verwendet diese Gradienten, um die eigentliche Aktualisierung durchzuführen.

Wenn das Modell und die Verlustfunktion differenzierbar sind, oder zumindest stückweise ausreichend differenzierbar für Gradientenverfahren, dann ermöglicht Backpropagation, diese Gradienten effizient in einem einzigen Rückwärtsdurchlauf zu berechnen.

Warum die Kettenregel die Schlüsselidee ist

Man kann sich ein neuronales Netz als eine lange Kette von Berechnungen vorstellen. Jede Schicht nimmt eine Eingabe, transformiert sie und gibt das Ergebnis an die nächste Schicht weiter. Wenn man beim Verlust ankommt, hängt der endgültige Fehler von jeder früheren Entscheidung ab.

Backpropagation stellt an jedem Schritt eine lokale Frage: Wenn sich dieser Zwischenwert ein wenig ändern würde, wie würde sich dann der endgültige Verlust ändern? Diese lokalen Effekte werden beim Rückwärtsgehen miteinander multipliziert. Genau das ist die Kettenregel in einfacher Sprache.

Backpropagation-Beispiel mit einem Neuron

Verwende ein Neuron mit einer Eingabe:

z = wx + b

a = \sigma(z)

L = \frac{1}{2}(a - y)^2

Hier ist $x$ die Eingabe, $w$ das Gewicht, $b$ der Bias, $a$ die Vorhersage, $y$ der Zielwert und $\sigma$ die Sigmoidfunktion.

Nimm

x = 2, \qquad w = 0.5, \qquad b = 0, \qquad y = 1.

Schritt 1: Vorwärtsdurchlauf

Berechne zuerst die gewichtete Summe des Neurons:

z = wx + b = 0.5 \cdot 2 + 0 = 1.

Wende nun die Sigmoidfunktion an:

a = \sigma(1) \approx 0.731.

Berechne jetzt den Verlust:

L = \frac{1}{2}(0.731 - 1)^2 \approx 0.036.

Die Vorhersage liegt unter dem Zielwert, daher ist der Verlust positiv.

Schritt 2: Rückwärtsdurchlauf

Berechne nun den Gradienten in Bezug auf das Gewicht.

Beginne beim Verlust und arbeite dich nach innen vor:

\frac{\partial L}{\partial a} = a - y.

Für die Sigmoidfunktion gilt:

\frac{\partial a}{\partial z} = a(1-a).

Und für die gewichtete Summe gilt:

\frac{\partial z}{\partial w} = x, \qquad \frac{\partial z}{\partial b} = 1.

Verknüpfe nun die Teile miteinander:

\frac{\partial L}{\partial w} = \frac{\partial L}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial w} = (a-y)a(1-a)x.

\frac{\partial L}{\partial b} = \frac{\partial L}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial b} = (a-y)a(1-a).

Setze die Zahlen ein:

\frac{\partial L}{\partial b} \approx (0.731 - 1)(0.731)(1 - 0.731) \approx -0.0529

\frac{\partial L}{\partial w} \approx (-0.0529)(2) \approx -0.1058.

Die negativen Vorzeichen sind wichtig. Sie bedeuten, dass eine leichte Erhöhung von $w$ oder $b$ den Verlust hier verringern würde, was zur Situation passt, weil die aktuelle Vorhersage zu niedrig ist.

Wenn du Gradientenabstieg mit der Lernrate $\eta = 0.1$ verwendest, dann gilt

w_{\text{new}} = w - \eta \frac{\partial L}{\partial w} = 0.5 - 0.1(-0.1058) \approx 0.5106

b_{\text{new}} = b - \eta \frac{\partial L}{\partial b} = 0 - 0.1(-0.0529) \approx 0.0053.

Das ist die ganze Idee im Kleinen: Vorwärtsdurchlauf, Verlust, Rückwärtsdurchlauf, Aktualisierung.

Warum Backpropagation für tiefe Netze funktioniert

In einem tieferen Netz macht man dasselbe Schicht für Schicht. Der Hauptunterschied ist, dass jede verborgene Schicht den Verlust indirekt über spätere Schichten beeinflusst, sodass ihr Gradient mehr Faktoren aus der Kettenregel enthält.

Backpropagation bleibt praktisch, weil jede Schicht nur ihre lokale Ableitung und das Signal aus der nachfolgenden Schicht braucht. Man muss nicht für jeden Parameter das ganze Netz von Grund auf neu ableiten.

Häufige Fehler bei der Backpropagation

Backpropagation mit Gradientenabstieg verwechseln

Backpropagation berechnet Gradienten. Gradientenabstieg verwendet diese Gradienten, um Parameter zu aktualisieren. Beides ist eng verbunden, aber es ist nicht derselbe Schritt.

Vergessen, dass der Verlust am Ende steht

Der Rückwärtsdurchlauf beginnt beim Verlust, nicht bei einer beliebigen verborgenen Schicht. Wenn man aus dem Blick verliert, wovon der Verlust abhängt, bricht die Ableitungskette meist auseinander.

Das Verhalten der Aktivierungsfunktion ignorieren

Einige Aktivierungsfunktionen erzeugen in bestimmten Bereichen sehr kleine Gradienten. Wenn das über viele Schichten hinweg wiederholt passiert, kann das Lernen langsam werden.

Annehmen, dass ein einziger Rückwärtsdurchlauf bedeutet, dass das Modell gelernt hat

Ein Rückwärtsdurchlauf liefert einen Satz von Gradienten für einen Batch. Das Training braucht normalerweise viele Aktualisierungen über viele Beispiele hinweg.

Wann Backpropagation verwendet wird

Backpropagation ist die Standardmethode zur Gradientenberechnung beim Training vieler neuronaler Netze, darunter mehrschichtige Perzeptrons, Convolutional Networks, rekurrente Modelle und Transformer.

Der genaue Optimierer kann sich ändern, und manche Architekturen fügen praktische Tricks hinzu, aber die Grundidee ist meist dieselbe: den Verlust berechnen, Gradienten rückwärts propagieren und die Parameter aktualisieren, um den zukünftigen Fehler zu verringern.

Eine praktische Art, es sich zu merken

Backpropagation ist eine strukturierte Methode, um in einem geschichteten Modell Anteile an Erfolg und Fehler zuzuweisen. Wenn die Ausgabe falsch ist, verfolgt die Methode diesen Fehler rückwärts, sodass jeder Parameter ein Signal darüber bekommt, wie er dazu beigetragen hat.

Deshalb ist die Formulierung „wie neuronale Netze lernen“ größtenteils zutreffend. Das Lernen geschieht durch wiederholte Parameteraktualisierungen, und Backpropagation sorgt dafür, dass diese Aktualisierungen informiert statt zufällig sind.

Probiere eine ähnliche Aufgabe

Behalte dasselbe Beispiel bei, aber ändere den Zielwert von $y = 1$ zu $y = 0$ . Berechne $\frac{\partial L}{\partial w}$ und $\frac{\partial L}{\partial b}$ erneut und prüfe dann, wie die Vorzeichen kippen. Diese eine Änderung macht die Rolle des Verlusts viel klarer, als nur die Formeln auswendig zu lernen.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →