Árboles de decisión — entropía, Gini y random forest

Un árbol de decisión predice haciendo una secuencia de preguntas como "¿completó el cuestionario de práctica?" o "¿ingresos por encima de $50{,}000$ ?" En un árbol de clasificación, la mejor pregunta suele ser la que hace que los nodos hijos estén menos mezclados que el nodo padre. Ahí es donde entran la entropía y la impureza de Gini.

Los random forests usan la misma idea básica, pero promedian muchos árboles en lugar de confiar en uno solo. Si solo necesitas la idea central, recuerda esto: la entropía y Gini ayudan a un árbol a elegir divisiones, y un random forest ayuda a reducir la inestabilidad de un solo árbol.

Entropía y Gini en árboles de decisión: qué miden

La entropía y la impureza de Gini son dos formas de medir qué tan mezclado está un nodo de clasificación.

Si un nodo contiene probabilidades de clase $p_1, p_2, \dots, p_k$ , una fórmula común para la entropía es

H = -\sum_{i=1}^k p_i \log_2 p_i

Esta fórmula se usa en árboles de clasificación. La base del logaritmo cambia la escala, pero no cambia qué división queda mejor clasificada.

La impureza de Gini es

G = 1 - \sum_{i=1}^k p_i^2

Ambas medidas valen $0$ cuando un nodo es perfectamente puro. Ambas aumentan cuando las clases están más mezcladas.

En la práctica, la entropía y Gini suelen ordenar de forma parecida las divisiones candidatas. La entropía tiene una interpretación directa desde la teoría de la información, mientras que Gini es un poco más simple de calcular.

Cómo elige una división un árbol de decisión

Para la entropía, una regla común es la ganancia de información:

\text{Information Gain} = H(\text{parent}) - \sum_j \frac{n_j}{n} H(\text{child}_j)

Aquí, $n$ es el número de muestras en el nodo padre y $n_j$ es el número en el nodo hijo $j$ .

Para Gini, la idea es paralela: calcula la impureza ponderada de los nodos hijos y prefiere la división que más la reduzca.

La condición importa: la entropía y Gini son estándares para árboles de clasificación. Un árbol de regresión suele usar una regla distinta, como la reducción de varianza, porque la variable objetivo es numérica y no categórica.

Ejemplo resuelto: entropía y Gini para una división

Supón que un nodo contiene $6$ ejemplos de entrenamiento para una predicción de aprobado/reprobado:

$3$ son Aprobado
$3$ son Reprobado

Así que el nodo padre está mezclado de forma uniforme.

Su entropía es

H_{\text{parent}} = -\frac{3}{6}\log_2\left(\frac{3}{6}\right) - \frac{3}{6}\log_2\left(\frac{3}{6}\right) = 1

Su impureza de Gini es

G_{\text{parent}} = 1 - \left(\frac{3}{6}\right)^2 - \left(\frac{3}{6}\right)^2 = 0.5

Ahora prueba la división "¿completó el cuestionario de práctica?"

Rama Sí: $4$ ejemplos, con $3$ Aprobado y $1$ Reprobado
Rama No: $2$ ejemplos, con $0$ Aprobado y $2$ Reprobado

Para la rama Sí,

H_{\text{yes}} = -\frac{3}{4}\log_2\left(\frac{3}{4}\right) - \frac{1}{4}\log_2\left(\frac{1}{4}\right) \approx 0.811

G_{\text{yes}} = 1 - \left(\frac{3}{4}\right)^2 - \left(\frac{1}{4}\right)^2 = 0.375

Para la rama No, el nodo es puro, así que

H_{\text{no}} = 0, \qquad G_{\text{no}} = 0

La entropía ponderada después de la división es

\frac{4}{6}(0.811) + \frac{2}{6}(0) \approx 0.541

Así que la ganancia de información es

1 - 0.541 \approx 0.459

La Gini ponderada después de la división es

\frac{4}{6}(0.375) + \frac{2}{6}(0) = 0.25

Así que la disminución de Gini es

0.5 - 0.25 = 0.25

Ambas medidas dicen que esta división es mejor que dejar el nodo padre sin dividir, porque la impureza ponderada baja en ambos casos.

Por qué los árboles de decisión tienen sentido intuitivamente

Un árbol es fácil de leer porque refleja la forma en que las personas suelen explicar decisiones: "si esto es cierto, ve a la izquierda; si no, ve a la derecha". Eso hace que los árboles sean útiles cuando necesitas un modelo que se pueda inspeccionar, explicar o convertir en reglas legibles para humanos.

También son flexibles. Un árbol puede capturar patrones no lineales e interacciones entre variables sin imponer una sola ecuación global a todo el conjunto de datos.

Por qué los random forests suelen funcionar mejor

Un solo árbol es fácil de interpretar, pero puede ser inestable. Un pequeño cambio en los datos puede producir un árbol notablemente distinto.

Un random forest reduce esa inestabilidad construyendo muchos árboles en lugar de uno. La receta habitual es:

muestrear los datos de entrenamiento con reemplazo para cada árbol
considerar solo un subconjunto aleatorio de variables en cada división
combinar las predicciones de todos los árboles

Para clasificación, el bosque suele predecir por voto mayoritario. Para regresión, normalmente promedia las salidas de los árboles.

La compensación es clara. Un random forest suele ser más preciso y más estable que un solo árbol, pero es más difícil de explicar como un conjunto limpio de reglas.

Errores comunes con árboles de decisión

Tratar la entropía y Gini como tipos distintos de predicción

Son criterios de división, no familias de modelos separadas. El modelo sigue siendo un árbol de decisión en ambos casos.

Olvidar la condición de clasificación

La entropía y Gini son estándares para árboles de clasificación. Si la variable objetivo es numérica, el árbol suele usar en su lugar una regla basada en varianza o en error.

Buscar pureza perfecta demasiado profundo

Si sigues dividiendo hasta que cada hoja sea casi perfecta en el conjunto de entrenamiento, el árbol puede sobreajustar. Los límites de profundidad, los tamaños mínimos de hoja o la poda existen por una razón.

Suponer que un random forest se explica solo

Un bosque suele predecir mejor, pero es menos transparente que un solo árbol. Si la interpretabilidad es el requisito principal, un árbol bien controlado puede seguir siendo la mejor herramienta.

Cuándo usar un árbol de decisión o random forest

Los árboles de decisión aparecen en tareas de clasificación y regresión en finanzas, medicina, operaciones, marketing y muchos otros contextos aplicados. Son útiles cuando la relación entre entradas y salidas no se describe bien con un modelo lineal y cuando importan las explicaciones tipo regla.

Usa un solo árbol cuando la interpretabilidad sea lo más importante y necesites inspeccionar la ruta de decisión. Usa un random forest cuando la calidad predictiva y la estabilidad importen más que tener un único árbol compacto que puedas leer línea por línea.

Prueba un problema similar

Toma un conjunto de datos pequeño etiquetado con dos clases y prueba dos posibles primeras divisiones. Calcula las proporciones de clase en cada nodo hijo y luego compara la entropía ponderada o la Gini ponderada. Resolver un caso pequeño a mano suele ser la forma más rápida de fijar la lógica de las divisiones.

¿Necesitas ayuda con un problema?

Sube tu pregunta y obtén una solución verificada, paso a paso, en segundos.

Abrir GPAI Solver →