Uma árvore de decisão faz previsões ao seguir uma sequência de perguntas, como "completou o quiz de prática?" ou "renda acima de ?" Em uma árvore de classificação, a melhor pergunta costuma ser a que deixa os nós filhos menos misturados do que o nó pai. É aí que entram a entropia e a impureza de Gini.
Random forests usam a mesma ideia básica, mas fazem a média de muitas árvores em vez de confiar em apenas uma. Se você só precisa da ideia central, lembre-se disto: entropia e Gini ajudam a árvore a escolher divisões, e uma random forest ajuda a reduzir a instabilidade de uma única árvore.
Entropia e Gini em Árvores de Decisão: O Que Medem
Entropia e impureza de Gini são duas formas de medir o quanto um nó de classificação está misturado.
Se um nó contém probabilidades de classe , então uma fórmula comum para a entropia é
Essa fórmula é usada em árvores de classificação. A base do logaritmo muda a escala, mas não muda qual divisão fica melhor classificada.
A impureza de Gini é
As duas medidas valem quando um nó é perfeitamente puro. As duas aumentam quando as classes ficam mais misturadas.
Na prática, entropia e Gini costumam ordenar divisões candidatas de forma parecida. A entropia tem uma interpretação direta em teoria da informação, enquanto Gini é um pouco mais simples de calcular.
Como Uma Árvore de Decisão Escolhe Uma Divisão
Para entropia, uma regra comum é o ganho de informação:
Aqui, é o número de amostras no nó pai e é o número no nó filho .
Para Gini, a ideia é paralela: calcule a impureza ponderada dos nós filhos e prefira a divisão que mais a reduz.
A condição importa: entropia e Gini são padrões para árvores de classificação. Uma árvore de regressão normalmente usa uma regra diferente, como redução de variância, porque o alvo é numérico e não categórico.
Exemplo Resolvido: Entropia e Gini em Uma Divisão
Suponha que um nó contenha exemplos de treino para uma previsão de aprovação/reprovação:
- são Aprovado
- são Reprovado
Então o nó pai está perfeitamente misturado.
Sua entropia é
Sua impureza de Gini é
Agora teste a divisão "completou o quiz de prática?"
- Ramo Sim: exemplos, com Aprovado e Reprovado
- Ramo Não: exemplos, com Aprovado e Reprovado
Para o ramo Sim,
e
Para o ramo Não, o nó é puro, então
A entropia ponderada após a divisão é
Então o ganho de informação é
O Gini ponderado após a divisão é
Então a redução de Gini é
As duas medidas dizem que essa divisão é melhor do que deixar o nó pai sem dividir, porque a impureza ponderada diminui nos dois casos.
Por Que Árvores de Decisão Fazem Sentido Intuitivamente
Uma árvore é fácil de ler porque espelha a forma como as pessoas costumam explicar decisões: "se isto for verdadeiro, vá para a esquerda; caso contrário, vá para a direita". Isso torna as árvores úteis quando você precisa de um modelo que possa ser inspecionado, explicado ou transformado em regras legíveis por humanos.
Elas também são flexíveis. Uma árvore pode capturar padrões não lineares e interações entre variáveis sem impor uma única equação global a todo o conjunto de dados.
Por Que Random Forests Muitas Vezes Funcionam Melhor
Uma única árvore é fácil de interpretar, mas pode ser instável. Uma pequena mudança nos dados pode produzir uma árvore visivelmente diferente.
Uma random forest reduz essa instabilidade ao construir muitas árvores em vez de uma só. A receita usual é:
- amostrar os dados de treino com reposição para cada árvore
- considerar apenas um subconjunto aleatório de variáveis em cada divisão
- combinar as previsões de todas as árvores
Para classificação, a floresta normalmente prevê por voto da maioria. Para regressão, ela normalmente faz a média das saídas das árvores.
A troca é simples. Uma random forest costuma ser mais precisa e mais estável do que uma única árvore, mas é mais difícil de explicar como um conjunto limpo de regras.
Erros Comuns com Árvores de Decisão
Tratar Entropia e Gini Como Tipos Diferentes de Previsão
Eles são critérios de divisão, não famílias separadas de modelos. O modelo continua sendo uma árvore de decisão em ambos os casos.
Esquecer a Condição de Classificação
Entropia e Gini são padrões para árvores de classificação. Se o alvo for numérico, a árvore normalmente usa uma regra baseada em variância ou erro.
Buscar Pureza Perfeita Fundo Demais
Se você continuar dividindo até que cada folha fique quase perfeita no conjunto de treino, a árvore pode sofrer overfitting. Limites de profundidade, tamanho mínimo de folha ou poda existem por um motivo.
Supor Que Random Forest Se Explica Sozinha
Uma floresta costuma prever melhor, mas é menos transparente do que uma única árvore. Se interpretabilidade for a exigência principal, uma árvore bem controlada ainda pode ser a melhor ferramenta.
Quando Usar Uma Árvore de Decisão ou Random Forest
Árvores de decisão aparecem em tarefas de classificação e regressão em finanças, medicina, operações, marketing e muitos outros contextos aplicados. Elas são úteis quando a relação entre entradas e saídas não é bem descrita por um modelo de linha reta e quando explicações em forma de regras importam.
Use uma única árvore quando a interpretabilidade for o mais importante e você precisar inspecionar o caminho da decisão. Use uma random forest quando qualidade de previsão e estabilidade importarem mais do que ter uma árvore compacta que você possa ler linha por linha.
Tente Um Problema Parecido
Pegue um pequeno conjunto de dados rotulado com duas classes e teste duas possíveis primeiras divisões. Calcule as proporções de classe em cada nó filho e depois compare a entropia ponderada ou o Gini ponderado. Resolver um caso pequeno à mão costuma ser a forma mais rápida de fixar a lógica das divisões.
Precisa de ajuda com um problema?
Envie sua pergunta e receba uma solução verificada, passo a passo, em segundos.
Abrir GPAI Solver →