Alberi decisionali — Entropia, Gini e Random Forest

Un albero decisionale fa previsioni ponendo una sequenza di domande come "ha completato il quiz di esercitazione?" oppure "reddito sopra $50{,}000$ ?" In un albero di classificazione, la domanda migliore è di solito quella che rende i nodi figli meno mescolati del nodo padre. È qui che entrano in gioco entropia e impurità di Gini.

Le random forest usano la stessa idea di base, ma fanno la media di molti alberi invece di affidarsi a un solo albero. Se ti serve solo l’idea centrale, ricorda questo: entropia e Gini aiutano un albero a scegliere gli split, e una random forest aiuta a ridurre l’instabilità di un singolo albero.

Entropia e Gini negli alberi decisionali: cosa misurano

L’entropia e l’impurità di Gini sono entrambi modi per misurare quanto è mescolato un nodo di classificazione.

Se un nodo contiene probabilità di classe $p_1, p_2, \dots, p_k$ , allora una formula comune per l’entropia è

H = -\sum_{i=1}^k p_i \log_2 p_i

Questa formula si usa per gli alberi di classificazione. La base del logaritmo cambia la scala, ma non cambia quale split risulta migliore.

L’impurità di Gini è

G = 1 - \sum_{i=1}^k p_i^2

Entrambi i punteggi valgono $0$ quando un nodo è perfettamente puro. Entrambi aumentano quando le classi sono più mescolate.

In pratica, entropia e Gini spesso ordinano gli split candidati in modo simile. L’entropia ha un’interpretazione diretta nella teoria dell’informazione, mentre Gini è leggermente più semplice da calcolare.

Come un albero decisionale sceglie uno split

Per l’entropia, una regola comune è il guadagno di informazione:

\text{Information Gain} = H(\text{parent}) - \sum_j \frac{n_j}{n} H(\text{child}_j)

Qui, $n$ è il numero di campioni nel nodo padre e $n_j$ è il numero nel nodo figlio $j$ .

Per Gini, l’idea è parallela: si calcola l’impurità pesata dei nodi figli e si preferisce lo split che la riduce di più.

La condizione conta: entropia e Gini sono standard per gli alberi di classificazione. Un albero di regressione di solito usa una regola diversa, come la riduzione della varianza, perché il target è numerico anziché categoriale.

Esempio svolto: entropia e Gini per uno split

Supponiamo che un nodo contenga $6$ esempi di addestramento per una previsione promosso/non promosso:

$3$ sono Promosso
$3$ sono Non promosso

Quindi il nodo padre è mescolato in modo uniforme.

La sua entropia è

H_{\text{parent}} = -\frac{3}{6}\log_2\left(\frac{3}{6}\right) - \frac{3}{6}\log_2\left(\frac{3}{6}\right) = 1

La sua impurità di Gini è

G_{\text{parent}} = 1 - \left(\frac{3}{6}\right)^2 - \left(\frac{3}{6}\right)^2 = 0.5

Ora proviamo lo split "ha completato il quiz di esercitazione?"

Ramo Sì: $4$ esempi, con $3$ Promosso e $1$ Non promosso
Ramo No: $2$ esempi, con $0$ Promosso e $2$ Non promosso

Per il ramo Sì,

H_{\text{yes}} = -\frac{3}{4}\log_2\left(\frac{3}{4}\right) - \frac{1}{4}\log_2\left(\frac{1}{4}\right) \approx 0.811

G_{\text{yes}} = 1 - \left(\frac{3}{4}\right)^2 - \left(\frac{1}{4}\right)^2 = 0.375

Per il ramo No, il nodo è puro, quindi

H_{\text{no}} = 0, \qquad G_{\text{no}} = 0

L’entropia pesata dopo lo split è

\frac{4}{6}(0.811) + \frac{2}{6}(0) \approx 0.541

Quindi il guadagno di informazione è

1 - 0.541 \approx 0.459

La Gini pesata dopo lo split è

\frac{4}{6}(0.375) + \frac{2}{6}(0) = 0.25

Quindi la diminuzione di Gini è

0.5 - 0.25 = 0.25

Entrambe le misure dicono che questo split è migliore che lasciare il nodo padre non diviso, perché l’impurità pesata diminuisce in entrambi i casi.

Perché gli alberi decisionali hanno senso intuitivamente

Un albero è facile da leggere perché rispecchia il modo in cui le persone spesso spiegano le decisioni: "se questo è vero, vai a sinistra; altrimenti, vai a destra". Questo rende gli alberi utili quando serve un modello che possa essere ispezionato, spiegato o trasformato in regole leggibili da una persona.

Sono anche flessibili. Un albero può catturare pattern non lineari e interazioni tra variabili senza imporre un’unica equazione globale all’intero dataset.

Perché le random forest spesso funzionano meglio

Un singolo albero è facile da interpretare, ma può essere instabile. Una piccola variazione nei dati può produrre un albero sensibilmente diverso.

Una random forest riduce questa instabilità costruendo molti alberi invece di uno solo. La procedura tipica è:

campionare i dati di addestramento con reinserimento per ogni albero
considerare solo un sottoinsieme casuale di variabili a ogni split
combinare le previsioni dei vari alberi

Per la classificazione, la foresta di solito prevede con voto di maggioranza. Per la regressione, di solito fa la media degli output degli alberi.

Il compromesso è semplice. Una random forest è spesso più accurata e più stabile di un singolo albero, ma è più difficile da spiegare come un unico insieme pulito di regole.

Errori comuni con gli alberi decisionali

Trattare entropia e Gini come tipi diversi di previsione

Sono criteri di split, non famiglie di modelli separate. Il modello resta comunque un albero decisionale.

Dimenticare la condizione di classificazione

Entropia e Gini sono standard per gli alberi di classificazione. Se il target è numerico, l’albero usa di solito invece una regola basata sulla varianza o sull’errore.

Cercare una purezza perfetta troppo in profondità

Se continui a dividere finché ogni foglia è quasi perfetta sul training set, l’albero può andare in overfitting. I limiti di profondità, le dimensioni minime delle foglie o il pruning esistono per un motivo.

Supporre che la random forest si spieghi da sola

Una foresta spesso prevede meglio, ma è meno trasparente di un singolo albero. Se l’interpretabilità è il requisito principale, un albero ben controllato può comunque essere lo strumento migliore.

Quando usare un albero decisionale o una random forest

Gli alberi decisionali compaiono in problemi di classificazione e regressione in finanza, medicina, operations, marketing e molti altri contesti applicati. Sono utili quando la relazione tra input e output non è ben descritta da un modello lineare e quando contano spiegazioni in forma di regole.

Usa un singolo albero quando conta soprattutto l’interpretabilità e hai bisogno di ispezionare il percorso decisionale. Usa una random forest quando qualità predittiva e stabilità contano più del fatto di avere un unico albero compatto da leggere riga per riga.

Prova un problema simile

Prendi un piccolo dataset etichettato con due classi e prova due possibili primi split. Calcola le proporzioni di classe in ciascun nodo figlio, poi confronta l’entropia pesata o la Gini pesata. Risolvere a mano un piccolo caso è spesso il modo più rapido per fissare la logica degli split.

Hai bisogno di aiuto con un problema?

Carica la tua domanda e ottieni una soluzione verificata, passo dopo passo, in pochi secondi.

Apri GPAI Solver →