Retropropagación — Cómo aprenden las redes neuronales

La retropropagación es el método que usan las redes neuronales para calcular gradientes: cuánto cambiaría la pérdida si cambiaras un poco cada peso o sesgo. En lenguaje simple, le dice al modelo qué parámetros empujaron la predicción en la dirección equivocada y en qué medida.

La versión corta es sencilla: ejecuta la red hacia adelante, mide el error y luego recorre hacia atrás el mismo cálculo con la regla de la cadena. Eso hace que un modelo profundo sea manejable, porque cada capa solo tiene que aportar una pequeña derivada local.

Qué calcula la retropropagación

La retropropagación no actualiza los parámetros por sí sola. Calcula gradientes como $\frac{\partial L}{\partial w}$ y $\frac{\partial L}{\partial b}$ , donde $L$ es la pérdida. Un optimizador como el descenso por gradiente usa esos gradientes para hacer la actualización real.

Si el modelo y la pérdida son diferenciables, o al menos suficientemente diferenciables por tramos para los métodos de gradiente, la retropropagación te permite calcular esos gradientes de forma eficiente en una sola pasada hacia atrás.

Por qué la regla de la cadena es la idea clave

Piensa en una red neuronal como una larga cadena de cálculos. Cada capa toma una entrada, la transforma y entrega el resultado a la siguiente capa. Cuando llegas a la pérdida, el error final depende de cada decisión anterior.

La retropropagación plantea una pregunta local en cada paso: si este valor intermedio cambiara un poco, ¿cómo cambiaría la pérdida final? Esos efectos locales se multiplican entre sí a medida que avanzas hacia atrás. Esa es la regla de la cadena en lenguaje simple.

Ejemplo de retropropagación con una neurona

Usa una neurona con una entrada:

z = wx + b

a = \sigma(z)

L = \frac{1}{2}(a - y)^2

Aquí $x$ es la entrada, $w$ es el peso, $b$ es el sesgo, $a$ es la predicción, $y$ es el valor objetivo y $\sigma$ es la función sigmoide.

Toma

x = 2, \qquad w = 0.5, \qquad b = 0, \qquad y = 1.

Paso 1: Propagación hacia adelante

Primero calcula la suma ponderada de la neurona:

z = wx + b = 0.5 \cdot 2 + 0 = 1.

Ahora aplica la sigmoide:

a = \sigma(1) \approx 0.731.

Ahora calcula la pérdida:

L = \frac{1}{2}(0.731 - 1)^2 \approx 0.036.

La predicción está por debajo del valor objetivo, así que la pérdida es positiva.

Paso 2: Propagación hacia atrás

Ahora calcula el gradiente con respecto al peso.

Empieza en la pérdida y avanza hacia adentro:

\frac{\partial L}{\partial a} = a - y.

Para la sigmoide,

\frac{\partial a}{\partial z} = a(1-a).

Y para la suma ponderada,

\frac{\partial z}{\partial w} = x, \qquad \frac{\partial z}{\partial b} = 1.

Ahora encadena las partes:

\frac{\partial L}{\partial w} = \frac{\partial L}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial w} = (a-y)a(1-a)x.

\frac{\partial L}{\partial b} = \frac{\partial L}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial b} = (a-y)a(1-a).

Sustituye los números:

\frac{\partial L}{\partial b} \approx (0.731 - 1)(0.731)(1 - 0.731) \approx -0.0529

\frac{\partial L}{\partial w} \approx (-0.0529)(2) \approx -0.1058.

Los signos negativos importan. Indican que aumentar ligeramente $w$ o $b$ reduciría la pérdida en este caso, lo cual encaja con la situación porque la predicción actual es demasiado baja.

Si usas descenso por gradiente con tasa de aprendizaje $\eta = 0.1$ , entonces

w_{\text{new}} = w - \eta \frac{\partial L}{\partial w} = 0.5 - 0.1(-0.1058) \approx 0.5106

b_{\text{new}} = b - \eta \frac{\partial L}{\partial b} = 0 - 0.1(-0.0529) \approx 0.0053.

Esa es toda la idea en miniatura: propagación hacia adelante, pérdida, propagación hacia atrás, actualización.

Por qué la retropropagación funciona en redes profundas

En una red más profunda, haces lo mismo capa por capa. La diferencia principal es que cada capa oculta afecta a la pérdida de forma indirecta a través de capas posteriores, así que su gradiente incluye más factores de la regla de la cadena.

La retropropagación sigue siendo práctica porque cada capa solo necesita su derivada local y la señal que llega desde la capa siguiente. No vuelves a derivar toda la red desde cero para cada parámetro.

Errores comunes en retropropagación

Confundir la retropropagación con el descenso por gradiente

La retropropagación calcula gradientes. El descenso por gradiente usa esos gradientes para actualizar parámetros. Están muy relacionados, pero no son el mismo paso.

Olvidar que la pérdida está al final

La pasada hacia atrás empieza en la pérdida, no en una capa oculta cualquiera. Si pierdes de vista de qué depende la pérdida, la cadena de derivadas normalmente se rompe.

Ignorar el comportamiento de la activación

Algunas funciones de activación producen gradientes muy pequeños en ciertas regiones. Si eso ocurre repetidamente en muchas capas, el aprendizaje puede volverse lento.

Suponer que una sola pasada hacia atrás significa que el modelo ya aprendió

Una pasada hacia atrás da un conjunto de gradientes para un lote. El entrenamiento normalmente necesita muchas actualizaciones sobre muchos ejemplos.

Cuándo se usa la retropropagación

La retropropagación es el método estándar de cálculo de gradientes para entrenar muchas redes neuronales, incluidas los perceptrones multicapa, las redes convolucionales, los modelos recurrentes y los transformers.

El optimizador exacto puede cambiar, y algunas arquitecturas añaden trucos prácticos, pero la idea central suele ser la misma: calcular la pérdida, propagar los gradientes hacia atrás y actualizar los parámetros para reducir el error futuro.

Una forma práctica de recordarla

La retropropagación es una forma estructurada de asignar mérito y culpa dentro de un modelo por capas. Si la salida es incorrecta, el método rastrea ese error hacia atrás para que cada parámetro reciba una señal sobre cómo contribuyó.

Por eso la frase "cómo aprenden las redes neuronales" es bastante precisa. El aprendizaje ocurre mediante actualizaciones repetidas de los parámetros, y la retropropagación es lo que hace que esas actualizaciones estén guiadas en lugar de ser aleatorias.

Prueba un problema similar

Mantén el mismo ejemplo, pero cambia el objetivo de $y = 1$ a $y = 0$ . Vuelve a calcular $\frac{\partial L}{\partial w}$ y $\frac{\partial L}{\partial b}$ , y luego comprueba cómo cambian los signos. Ese único cambio deja mucho más claro el papel de la pérdida que memorizar solo las fórmulas.

¿Necesitas ayuda con un problema?

Sube tu pregunta y obtén una solución verificada, paso a paso, en segundos.

Abrir GPAI Solver →