Ein Entscheidungsbaum sagt Vorhersagen, indem er eine Folge von Fragen stellt, zum Beispiel „Übungsquiz abgeschlossen?“ oder „Einkommen über ?“. In einem Klassifikationsbaum ist die beste Frage meist diejenige, die die Kindknoten weniger gemischt macht als den Elternknoten. Genau hier kommen Entropie und Gini-Unreinheit ins Spiel.
Random Forests verwenden dieselbe Grundidee, mitteln aber viele Bäume, statt sich auf einen einzelnen Baum zu verlassen. Wenn du nur die Kernidee brauchst, merke dir Folgendes: Entropie und Gini helfen einem Baum bei der Wahl von Splits, und ein Random Forest verringert die Instabilität eines einzelnen Baums.
Entscheidungsbaum-Entropie und Gini: Was sie messen
Entropie und Gini-Unreinheit sind beides Maße dafür, wie stark ein Klassifikationsknoten gemischt ist.
Wenn ein Knoten Klassenwahrscheinlichkeiten enthält, dann ist eine gebräuchliche Formel für die Entropie
Diese Formel wird für Klassifikationsbäume verwendet. Die Basis des Logarithmus ändert die Skala, aber nicht, welcher Split am besten abschneidet.
Die Gini-Unreinheit ist
Beide Werte sind , wenn ein Knoten vollkommen rein ist. Beide werden größer, wenn die Klassen stärker gemischt sind.
In der Praxis ordnen Entropie und Gini mögliche Splits oft ähnlich ein. Entropie hat eine direkte Interpretation aus der Informationstheorie, während Gini etwas einfacher zu berechnen ist.
Wie ein Entscheidungsbaum einen Split auswählt
Für Entropie ist eine übliche Regel der Informationsgewinn:
Hier ist die Anzahl der Stichproben im Elternknoten und die Anzahl im Kindknoten .
Für Gini ist die Idee parallel: Berechne die gewichtete Unreinheit der Kindknoten und bevorzuge den Split, der sie am stärksten verringert.
Die Bedingung ist wichtig: Entropie und Gini sind Standard für Klassifikationsbäume. Ein Regressionsbaum verwendet meist eine andere Regel, etwa Varianzreduktion, weil das Ziel numerisch statt kategorial ist.
Durchgerechnetes Beispiel: Entropie und Gini für einen Split
Angenommen, ein Knoten enthält Trainingsbeispiele für eine Bestanden/Nicht-bestanden-Vorhersage:
- sind Bestanden
- sind Nicht bestanden
Der Elternknoten ist also gleichmäßig gemischt.
Seine Entropie ist
Seine Gini-Unreinheit ist
Teste nun den Split „Übungsquiz abgeschlossen?“
- Ja-Zweig: Beispiele, davon Bestanden und Nicht bestanden
- Nein-Zweig: Beispiele, davon Bestanden und Nicht bestanden
Für den Ja-Zweig gilt:
und
Für den Nein-Zweig ist der Knoten rein, also gilt:
Die gewichtete Entropie nach dem Split ist
Der Informationsgewinn ist also
Die gewichtete Gini-Unreinheit nach dem Split ist
Die Gini-Abnahme ist also
Beide Maße sagen, dass dieser Split besser ist, als den Elternknoten ungeteilt zu lassen, weil die gewichtete Unreinheit in beiden Fällen sinkt.
Warum Entscheidungsbäume intuitiv sinnvoll sind
Ein Baum ist leicht zu lesen, weil er die Art widerspiegelt, wie Menschen Entscheidungen oft erklären: „Wenn das wahr ist, gehe nach links, sonst nach rechts.“ Das macht Bäume nützlich, wenn du ein Modell brauchst, das sich prüfen, erklären oder in menschenlesbare Regeln umwandeln lässt.
Sie sind außerdem flexibel. Ein Baum kann nichtlineare Muster und Wechselwirkungen zwischen Merkmalen erfassen, ohne dem gesamten Datensatz eine einzige globale Gleichung aufzuzwingen.
Warum Random Forests oft besser funktionieren
Ein einzelner Baum ist leicht zu interpretieren, kann aber instabil sein. Eine kleine Änderung in den Daten kann zu einem deutlich anderen Baum führen.
Ein Random Forest verringert diese Instabilität, indem er viele Bäume statt nur eines erstellt. Das übliche Vorgehen ist:
- ziehe für jeden Baum Trainingsdaten mit Zurücklegen
- betrachte bei jedem Split nur eine zufällige Teilmenge der Merkmale
- kombiniere die Vorhersagen aller Bäume
Bei der Klassifikation sagt der Forest meist per Mehrheitsentscheidung voraus. Bei der Regression mittelt er in der Regel die Ausgaben der Bäume.
Der Kompromiss ist einfach. Ein Random Forest ist oft genauer und stabiler als ein einzelner Baum, aber schwerer als ein einziges klares Regelsystem zu erklären.
Häufige Fehler bei Entscheidungsbäumen
Entropie und Gini als verschiedene Arten von Vorhersage behandeln
Es sind Split-Kriterien, keine getrennten Modellfamilien. Das Modell ist in beiden Fällen weiterhin ein Entscheidungsbaum.
Die Klassifikationsbedingung vergessen
Entropie und Gini sind Standard für Klassifikationsbäume. Wenn das Ziel numerisch ist, verwendet der Baum stattdessen meist eine varianzbasierte oder fehlerbasierte Regel.
Perfekte Reinheit zu tief verfolgen
Wenn du so lange weiter splittest, bis jedes Blatt im Trainingssatz fast perfekt ist, kann der Baum overfitten. Tiefenbegrenzungen, minimale Blattgrößen oder Pruning gibt es aus gutem Grund.
Annehmen, dass ein Random Forest sich selbst erklärt
Ein Forest sagt oft besser voraus, ist aber weniger transparent als ein einzelner Baum. Wenn Interpretierbarkeit die wichtigste Anforderung ist, kann ein sorgfältig kontrollierter einzelner Baum trotzdem das bessere Werkzeug sein.
Wann man einen Entscheidungsbaum oder Random Forest verwenden sollte
Entscheidungsbäume kommen bei Klassifikations- und Regressionsaufgaben in Finanzen, Medizin, Operations, Marketing und vielen anderen Anwendungsfeldern vor. Sie sind nützlich, wenn die Beziehung zwischen Eingaben und Ausgaben nicht gut durch ein lineares Modell beschrieben wird und wenn regelartige Erklärungen wichtig sind.
Verwende einen einzelnen Baum, wenn Interpretierbarkeit am wichtigsten ist und du den Entscheidungsweg prüfen musst. Verwende einen Random Forest, wenn Vorhersagequalität und Stabilität wichtiger sind als ein kompakter einzelner Baum, den du Zeile für Zeile lesen kannst.
Probiere ein ähnliches Problem aus
Nimm einen kleinen gelabelten Datensatz mit zwei Klassen und teste zwei mögliche erste Splits. Berechne die Klassenanteile in jedem Kindknoten und vergleiche dann die gewichtete Entropie oder den gewichteten Gini-Wert. Einen kleinen Fall von Hand durchzurechnen ist oft der schnellste Weg, damit die Split-Logik wirklich hängen bleibt.
Brauchst du Hilfe bei einer Aufgabe?
Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.
GPAI Solver öffnen →