Árvores de Decisão — Entropia, Gini e Random Forest

Uma árvore de decisão faz previsões ao seguir uma sequência de perguntas, como "completou o quiz de prática?" ou "renda acima de $50{,}000$ ?" Em uma árvore de classificação, a melhor pergunta costuma ser a que deixa os nós filhos menos misturados do que o nó pai. É aí que entram a entropia e a impureza de Gini.

Random forests usam a mesma ideia básica, mas fazem a média de muitas árvores em vez de confiar em apenas uma. Se você só precisa da ideia central, lembre-se disto: entropia e Gini ajudam a árvore a escolher divisões, e uma random forest ajuda a reduzir a instabilidade de uma única árvore.

Entropia e Gini em Árvores de Decisão: O Que Medem

Entropia e impureza de Gini são duas formas de medir o quanto um nó de classificação está misturado.

Se um nó contém probabilidades de classe $p_1, p_2, \dots, p_k$ , então uma fórmula comum para a entropia é

H = -\sum_{i=1}^k p_i \log_2 p_i

Essa fórmula é usada em árvores de classificação. A base do logaritmo muda a escala, mas não muda qual divisão fica melhor classificada.

A impureza de Gini é

G = 1 - \sum_{i=1}^k p_i^2

As duas medidas valem $0$ quando um nó é perfeitamente puro. As duas aumentam quando as classes ficam mais misturadas.

Na prática, entropia e Gini costumam ordenar divisões candidatas de forma parecida. A entropia tem uma interpretação direta em teoria da informação, enquanto Gini é um pouco mais simples de calcular.

Como Uma Árvore de Decisão Escolhe Uma Divisão

Para entropia, uma regra comum é o ganho de informação:

\text{Information Gain} = H(\text{parent}) - \sum_j \frac{n_j}{n} H(\text{child}_j)

Aqui, $n$ é o número de amostras no nó pai e $n_j$ é o número no nó filho $j$ .

Para Gini, a ideia é paralela: calcule a impureza ponderada dos nós filhos e prefira a divisão que mais a reduz.

A condição importa: entropia e Gini são padrões para árvores de classificação. Uma árvore de regressão normalmente usa uma regra diferente, como redução de variância, porque o alvo é numérico e não categórico.

Exemplo Resolvido: Entropia e Gini em Uma Divisão

Suponha que um nó contenha $6$ exemplos de treino para uma previsão de aprovação/reprovação:

$3$ são Aprovado
$3$ são Reprovado

Então o nó pai está perfeitamente misturado.

Sua entropia é

H_{\text{parent}} = -\frac{3}{6}\log_2\left(\frac{3}{6}\right) - \frac{3}{6}\log_2\left(\frac{3}{6}\right) = 1

Sua impureza de Gini é

G_{\text{parent}} = 1 - \left(\frac{3}{6}\right)^2 - \left(\frac{3}{6}\right)^2 = 0.5

Agora teste a divisão "completou o quiz de prática?"

Ramo Sim: $4$ exemplos, com $3$ Aprovado e $1$ Reprovado
Ramo Não: $2$ exemplos, com $0$ Aprovado e $2$ Reprovado

Para o ramo Sim,

H_{\text{yes}} = -\frac{3}{4}\log_2\left(\frac{3}{4}\right) - \frac{1}{4}\log_2\left(\frac{1}{4}\right) \approx 0.811

G_{\text{yes}} = 1 - \left(\frac{3}{4}\right)^2 - \left(\frac{1}{4}\right)^2 = 0.375

Para o ramo Não, o nó é puro, então

H_{\text{no}} = 0, \qquad G_{\text{no}} = 0

A entropia ponderada após a divisão é

\frac{4}{6}(0.811) + \frac{2}{6}(0) \approx 0.541

Então o ganho de informação é

1 - 0.541 \approx 0.459

O Gini ponderado após a divisão é

\frac{4}{6}(0.375) + \frac{2}{6}(0) = 0.25

Então a redução de Gini é

0.5 - 0.25 = 0.25

As duas medidas dizem que essa divisão é melhor do que deixar o nó pai sem dividir, porque a impureza ponderada diminui nos dois casos.

Por Que Árvores de Decisão Fazem Sentido Intuitivamente

Uma árvore é fácil de ler porque espelha a forma como as pessoas costumam explicar decisões: "se isto for verdadeiro, vá para a esquerda; caso contrário, vá para a direita". Isso torna as árvores úteis quando você precisa de um modelo que possa ser inspecionado, explicado ou transformado em regras legíveis por humanos.

Elas também são flexíveis. Uma árvore pode capturar padrões não lineares e interações entre variáveis sem impor uma única equação global a todo o conjunto de dados.

Por Que Random Forests Muitas Vezes Funcionam Melhor

Uma única árvore é fácil de interpretar, mas pode ser instável. Uma pequena mudança nos dados pode produzir uma árvore visivelmente diferente.

Uma random forest reduz essa instabilidade ao construir muitas árvores em vez de uma só. A receita usual é:

amostrar os dados de treino com reposição para cada árvore
considerar apenas um subconjunto aleatório de variáveis em cada divisão
combinar as previsões de todas as árvores

Para classificação, a floresta normalmente prevê por voto da maioria. Para regressão, ela normalmente faz a média das saídas das árvores.

A troca é simples. Uma random forest costuma ser mais precisa e mais estável do que uma única árvore, mas é mais difícil de explicar como um conjunto limpo de regras.

Erros Comuns com Árvores de Decisão

Tratar Entropia e Gini Como Tipos Diferentes de Previsão

Eles são critérios de divisão, não famílias separadas de modelos. O modelo continua sendo uma árvore de decisão em ambos os casos.

Esquecer a Condição de Classificação

Entropia e Gini são padrões para árvores de classificação. Se o alvo for numérico, a árvore normalmente usa uma regra baseada em variância ou erro.

Buscar Pureza Perfeita Fundo Demais

Se você continuar dividindo até que cada folha fique quase perfeita no conjunto de treino, a árvore pode sofrer overfitting. Limites de profundidade, tamanho mínimo de folha ou poda existem por um motivo.

Supor Que Random Forest Se Explica Sozinha

Uma floresta costuma prever melhor, mas é menos transparente do que uma única árvore. Se interpretabilidade for a exigência principal, uma árvore bem controlada ainda pode ser a melhor ferramenta.

Quando Usar Uma Árvore de Decisão ou Random Forest

Árvores de decisão aparecem em tarefas de classificação e regressão em finanças, medicina, operações, marketing e muitos outros contextos aplicados. Elas são úteis quando a relação entre entradas e saídas não é bem descrita por um modelo de linha reta e quando explicações em forma de regras importam.

Use uma única árvore quando a interpretabilidade for o mais importante e você precisar inspecionar o caminho da decisão. Use uma random forest quando qualidade de previsão e estabilidade importarem mais do que ter uma árvore compacta que você possa ler linha por linha.

Tente Um Problema Parecido

Pegue um pequeno conjunto de dados rotulado com duas classes e teste duas possíveis primeiras divisões. Calcule as proporções de classe em cada nó filho e depois compare a entropia ponderada ou o Gini ponderado. Resolver um caso pequeno à mão costuma ser a forma mais rápida de fixar a lógica das divisões.

Precisa de ajuda com um problema?

Envie sua pergunta e receba uma solução verificada, passo a passo, em segundos.

Abrir GPAI Solver →