Drzewa decyzyjne — entropia, Gini i random forest

Drzewo decyzyjne przewiduje wynik, zadając serię pytań, takich jak „czy ukończono quiz ćwiczeniowy?” albo „czy dochód przekracza $50{,}000$ ?”. W drzewie klasyfikacyjnym najlepsze pytanie to zwykle takie, które sprawia, że węzły potomne są mniej wymieszane niż węzeł nadrzędny. Właśnie tutaj pojawiają się entropia i nieczystość Gini.

Lasy losowe opierają się na tym samym podstawowym pomyśle, ale uśredniają wiele drzew zamiast polegać na jednym. Jeśli chcesz zapamiętać tylko sedno, to jest ono takie: entropia i Gini pomagają drzewu wybierać podziały, a random forest zmniejsza niestabilność pojedynczego drzewa.

Entropia i Gini w drzewach decyzyjnych: co mierzą

Entropia i nieczystość Gini to dwa sposoby oceny tego, jak bardzo wymieszany jest węzeł klasyfikacyjny.

Jeśli węzeł zawiera prawdopodobieństwa klas $p_1, p_2, \dots, p_k$ , to jednym z typowych wzorów na entropię jest

H = -\sum_{i=1}^k p_i \log_2 p_i

Ten wzór stosuje się w drzewach klasyfikacyjnych. Podstawa logarytmu zmienia skalę, ale nie zmienia tego, który podział wypada najlepiej.

Nieczystość Gini ma postać

G = 1 - \sum_{i=1}^k p_i^2

Obie miary są równe $0$ , gdy węzeł jest idealnie czysty. Obie rosną, gdy klasy są bardziej wymieszane.

W praktyce entropia i Gini często podobnie porządkują kandydatów na podziały. Entropia ma bezpośrednią interpretację z teorii informacji, a Gini jest nieco prostsza obliczeniowo.

Jak drzewo decyzyjne wybiera podział

Dla entropii często stosowaną regułą jest information gain:

\text{Information Gain} = H(\text{parent}) - \sum_j \frac{n_j}{n} H(\text{child}_j)

Tutaj $n$ oznacza liczbę próbek w węźle nadrzędnym, a $n_j$ liczbę próbek w węźle potomnym $j$ .

Dla Gini idea jest analogiczna: obliczasz ważoną nieczystość węzłów potomnych i wybierasz podział, który zmniejsza ją najbardziej.

Warunek ma znaczenie: entropia i Gini są standardem w drzewach klasyfikacyjnych. Drzewo regresyjne zwykle używa innej reguły, na przykład redukcji wariancji, ponieważ zmienna docelowa jest liczbowa, a nie kategorialna.

Przykład obliczeniowy: entropia i Gini dla jednego podziału

Załóżmy, że węzeł zawiera $6$ przykładów treningowych dla przewidywania zaliczenia lub niezaliczenia:

$3$ to Zaliczone
$3$ to Niezaliczone

Zatem węzeł nadrzędny jest wymieszany po równo.

Jego entropia wynosi

H_{\text{parent}} = -\frac{3}{6}\log_2\left(\frac{3}{6}\right) - \frac{3}{6}\log_2\left(\frac{3}{6}\right) = 1

Jego nieczystość Gini wynosi

G_{\text{parent}} = 1 - \left(\frac{3}{6}\right)^2 - \left(\frac{3}{6}\right)^2 = 0.5

Teraz sprawdźmy podział „czy ukończono quiz ćwiczeniowy?”:

Gałąź Tak: $4$ przykłady, z czego $3$ Zaliczone i $1$ Niezaliczone
Gałąź Nie: $2$ przykłady, z czego $0$ Zaliczone i $2$ Niezaliczone

Dla gałęzi Tak mamy

H_{\text{yes}} = -\frac{3}{4}\log_2\left(\frac{3}{4}\right) - \frac{1}{4}\log_2\left(\frac{1}{4}\right) \approx 0.811

oraz

G_{\text{yes}} = 1 - \left(\frac{3}{4}\right)^2 - \left(\frac{1}{4}\right)^2 = 0.375

Dla gałęzi Nie węzeł jest czysty, więc

H_{\text{no}} = 0, \qquad G_{\text{no}} = 0

Ważona entropia po podziale wynosi

\frac{4}{6}(0.811) + \frac{2}{6}(0) \approx 0.541

Zatem information gain wynosi

1 - 0.541 \approx 0.459

Ważona nieczystość Gini po podziale wynosi

\frac{4}{6}(0.375) + \frac{2}{6}(0) = 0.25

Zatem spadek Gini wynosi

0.5 - 0.25 = 0.25

Obie miary pokazują, że ten podział jest lepszy niż pozostawienie węzła nadrzędnego bez podziału, ponieważ w obu przypadkach ważona nieczystość maleje.

Dlaczego drzewa decyzyjne są intuicyjne

Drzewo jest łatwe do odczytania, ponieważ odzwierciedla sposób, w jaki ludzie często wyjaśniają decyzje: „jeśli to jest prawdą, idź w lewo; w przeciwnym razie idź w prawo”. To sprawia, że drzewa są przydatne, gdy potrzebujesz modelu, który można przeanalizować, wyjaśnić albo zamienić na reguły czytelne dla człowieka.

Są też elastyczne. Drzewo może uchwycić nieliniowe zależności i interakcje cech bez narzucania jednego globalnego równania na cały zbiór danych.

Dlaczego random forest często działa lepiej

Pojedyncze drzewo jest łatwe do interpretacji, ale może być niestabilne. Niewielka zmiana w danych może dać zauważalnie inne drzewo.

Random forest zmniejsza tę niestabilność, budując wiele drzew zamiast jednego. Typowy przepis wygląda tak:

losuj dane treningowe ze zwracaniem dla każdego drzewa
rozważaj tylko losowy podzbiór cech przy każdym podziale
połącz przewidywania ze wszystkich drzew

W klasyfikacji las zwykle przewiduje przez głosowanie większościowe. W regresji zwykle uśrednia wyniki drzew.

Kompromis jest prosty. Random forest jest często dokładniejszy i stabilniejszy niż pojedyncze drzewo, ale trudniej go wyjaśnić jako jeden przejrzysty zestaw reguł.

Typowe błędy przy drzewach decyzyjnych

Traktowanie entropii i Gini jako różnych rodzajów predykcji

To kryteria podziału, a nie osobne rodziny modeli. W obu przypadkach model nadal jest drzewem decyzyjnym.

Zapominanie o warunku klasyfikacji

Entropia i Gini są standardowe dla drzew klasyfikacyjnych. Jeśli zmienna docelowa jest liczbowa, drzewo zwykle używa zamiast tego reguły opartej na wariancji albo błędzie.

Zbyt głębokie dążenie do idealnej czystości

Jeśli będziesz dzielić tak długo, aż każdy liść będzie niemal idealny na zbiorze treningowym, drzewo może się przeuczyć. Ograniczenia głębokości, minimalne rozmiary liści albo przycinanie nie są tam bez powodu.

Zakładanie, że random forest sam się wyjaśnia

Las często przewiduje lepiej, ale jest mniej przejrzysty niż pojedyncze drzewo. Jeśli najważniejsza jest interpretowalność, jedno starannie kontrolowane drzewo może nadal być lepszym narzędziem.

Kiedy używać drzewa decyzyjnego lub random forest

Drzewa decyzyjne pojawiają się w zadaniach klasyfikacji i regresji w finansach, medycynie, operacjach, marketingu i wielu innych zastosowaniach. Są przydatne wtedy, gdy zależność między wejściami a wyjściami nie jest dobrze opisana przez model liniowy i gdy ważne są wyjaśnienia w formie reguł.

Użyj pojedynczego drzewa, gdy najważniejsza jest interpretowalność i chcesz prześledzić ścieżkę decyzji. Użyj random forest, gdy bardziej liczy się jakość predykcji i stabilność niż jedno zwarte drzewo, które można czytać linia po linii.

Spróbuj podobnego zadania

Weź mały oznaczony zbiór danych z dwiema klasami i sprawdź dwa możliwe pierwsze podziały. Oblicz proporcje klas w każdym węźle potomnym, a następnie porównaj ważoną entropię albo ważoną nieczystość Gini. Ręczne rozwiązanie jednego małego przypadku to często najszybszy sposób, by dobrze zrozumieć logikę podziałów.

Potrzebujesz pomocy z zadaniem?

Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.

Otwórz GPAI Solver →