Entscheidungsbäume — Entropie, Gini & Random Forest

Ein Entscheidungsbaum sagt Vorhersagen, indem er eine Folge von Fragen stellt, zum Beispiel „Übungsquiz abgeschlossen?“ oder „Einkommen über $50{,}000$ ?“. In einem Klassifikationsbaum ist die beste Frage meist diejenige, die die Kindknoten weniger gemischt macht als den Elternknoten. Genau hier kommen Entropie und Gini-Unreinheit ins Spiel.

Random Forests verwenden dieselbe Grundidee, mitteln aber viele Bäume, statt sich auf einen einzelnen Baum zu verlassen. Wenn du nur die Kernidee brauchst, merke dir Folgendes: Entropie und Gini helfen einem Baum bei der Wahl von Splits, und ein Random Forest verringert die Instabilität eines einzelnen Baums.

Entscheidungsbaum-Entropie und Gini: Was sie messen

Entropie und Gini-Unreinheit sind beides Maße dafür, wie stark ein Klassifikationsknoten gemischt ist.

Wenn ein Knoten Klassenwahrscheinlichkeiten $p_1, p_2, \dots, p_k$ enthält, dann ist eine gebräuchliche Formel für die Entropie

H = -\sum_{i=1}^k p_i \log_2 p_i

Diese Formel wird für Klassifikationsbäume verwendet. Die Basis des Logarithmus ändert die Skala, aber nicht, welcher Split am besten abschneidet.

Die Gini-Unreinheit ist

G = 1 - \sum_{i=1}^k p_i^2

Beide Werte sind $0$ , wenn ein Knoten vollkommen rein ist. Beide werden größer, wenn die Klassen stärker gemischt sind.

In der Praxis ordnen Entropie und Gini mögliche Splits oft ähnlich ein. Entropie hat eine direkte Interpretation aus der Informationstheorie, während Gini etwas einfacher zu berechnen ist.

Wie ein Entscheidungsbaum einen Split auswählt

Für Entropie ist eine übliche Regel der Informationsgewinn:

\text{Information Gain} = H(\text{parent}) - \sum_j \frac{n_j}{n} H(\text{child}_j)

Hier ist $n$ die Anzahl der Stichproben im Elternknoten und $n_j$ die Anzahl im Kindknoten $j$ .

Für Gini ist die Idee parallel: Berechne die gewichtete Unreinheit der Kindknoten und bevorzuge den Split, der sie am stärksten verringert.

Die Bedingung ist wichtig: Entropie und Gini sind Standard für Klassifikationsbäume. Ein Regressionsbaum verwendet meist eine andere Regel, etwa Varianzreduktion, weil das Ziel numerisch statt kategorial ist.

Durchgerechnetes Beispiel: Entropie und Gini für einen Split

Angenommen, ein Knoten enthält $6$ Trainingsbeispiele für eine Bestanden/Nicht-bestanden-Vorhersage:

$3$ sind Bestanden
$3$ sind Nicht bestanden

Der Elternknoten ist also gleichmäßig gemischt.

Seine Entropie ist

H_{\text{parent}} = -\frac{3}{6}\log_2\left(\frac{3}{6}\right) - \frac{3}{6}\log_2\left(\frac{3}{6}\right) = 1

Seine Gini-Unreinheit ist

G_{\text{parent}} = 1 - \left(\frac{3}{6}\right)^2 - \left(\frac{3}{6}\right)^2 = 0.5

Teste nun den Split „Übungsquiz abgeschlossen?“

Ja-Zweig: $4$ Beispiele, davon $3$ Bestanden und $1$ Nicht bestanden
Nein-Zweig: $2$ Beispiele, davon $0$ Bestanden und $2$ Nicht bestanden

Für den Ja-Zweig gilt:

H_{\text{yes}} = -\frac{3}{4}\log_2\left(\frac{3}{4}\right) - \frac{1}{4}\log_2\left(\frac{1}{4}\right) \approx 0.811

und

G_{\text{yes}} = 1 - \left(\frac{3}{4}\right)^2 - \left(\frac{1}{4}\right)^2 = 0.375

Für den Nein-Zweig ist der Knoten rein, also gilt:

H_{\text{no}} = 0, \qquad G_{\text{no}} = 0

Die gewichtete Entropie nach dem Split ist

\frac{4}{6}(0.811) + \frac{2}{6}(0) \approx 0.541

Der Informationsgewinn ist also

1 - 0.541 \approx 0.459

Die gewichtete Gini-Unreinheit nach dem Split ist

\frac{4}{6}(0.375) + \frac{2}{6}(0) = 0.25

Die Gini-Abnahme ist also

0.5 - 0.25 = 0.25

Beide Maße sagen, dass dieser Split besser ist, als den Elternknoten ungeteilt zu lassen, weil die gewichtete Unreinheit in beiden Fällen sinkt.

Warum Entscheidungsbäume intuitiv sinnvoll sind

Ein Baum ist leicht zu lesen, weil er die Art widerspiegelt, wie Menschen Entscheidungen oft erklären: „Wenn das wahr ist, gehe nach links, sonst nach rechts.“ Das macht Bäume nützlich, wenn du ein Modell brauchst, das sich prüfen, erklären oder in menschenlesbare Regeln umwandeln lässt.

Sie sind außerdem flexibel. Ein Baum kann nichtlineare Muster und Wechselwirkungen zwischen Merkmalen erfassen, ohne dem gesamten Datensatz eine einzige globale Gleichung aufzuzwingen.

Warum Random Forests oft besser funktionieren

Ein einzelner Baum ist leicht zu interpretieren, kann aber instabil sein. Eine kleine Änderung in den Daten kann zu einem deutlich anderen Baum führen.

Ein Random Forest verringert diese Instabilität, indem er viele Bäume statt nur eines erstellt. Das übliche Vorgehen ist:

ziehe für jeden Baum Trainingsdaten mit Zurücklegen
betrachte bei jedem Split nur eine zufällige Teilmenge der Merkmale
kombiniere die Vorhersagen aller Bäume

Bei der Klassifikation sagt der Forest meist per Mehrheitsentscheidung voraus. Bei der Regression mittelt er in der Regel die Ausgaben der Bäume.

Der Kompromiss ist einfach. Ein Random Forest ist oft genauer und stabiler als ein einzelner Baum, aber schwerer als ein einziges klares Regelsystem zu erklären.

Häufige Fehler bei Entscheidungsbäumen

Entropie und Gini als verschiedene Arten von Vorhersage behandeln

Es sind Split-Kriterien, keine getrennten Modellfamilien. Das Modell ist in beiden Fällen weiterhin ein Entscheidungsbaum.

Die Klassifikationsbedingung vergessen

Entropie und Gini sind Standard für Klassifikationsbäume. Wenn das Ziel numerisch ist, verwendet der Baum stattdessen meist eine varianzbasierte oder fehlerbasierte Regel.

Perfekte Reinheit zu tief verfolgen

Wenn du so lange weiter splittest, bis jedes Blatt im Trainingssatz fast perfekt ist, kann der Baum overfitten. Tiefenbegrenzungen, minimale Blattgrößen oder Pruning gibt es aus gutem Grund.

Annehmen, dass ein Random Forest sich selbst erklärt

Ein Forest sagt oft besser voraus, ist aber weniger transparent als ein einzelner Baum. Wenn Interpretierbarkeit die wichtigste Anforderung ist, kann ein sorgfältig kontrollierter einzelner Baum trotzdem das bessere Werkzeug sein.

Wann man einen Entscheidungsbaum oder Random Forest verwenden sollte

Entscheidungsbäume kommen bei Klassifikations- und Regressionsaufgaben in Finanzen, Medizin, Operations, Marketing und vielen anderen Anwendungsfeldern vor. Sie sind nützlich, wenn die Beziehung zwischen Eingaben und Ausgaben nicht gut durch ein lineares Modell beschrieben wird und wenn regelartige Erklärungen wichtig sind.

Verwende einen einzelnen Baum, wenn Interpretierbarkeit am wichtigsten ist und du den Entscheidungsweg prüfen musst. Verwende einen Random Forest, wenn Vorhersagequalität und Stabilität wichtiger sind als ein kompakter einzelner Baum, den du Zeile für Zeile lesen kannst.

Probiere ein ähnliches Problem aus

Nimm einen kleinen gelabelten Datensatz mit zwei Klassen und teste zwei mögliche erste Splits. Berechne die Klassenanteile in jedem Kindknoten und vergleiche dann die gewichtete Entropie oder den gewichteten Gini-Wert. Einen kleinen Fall von Hand durchzurechnen ist oft der schnellste Weg, damit die Split-Logik wirklich hängen bleibt.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →