La regresión logística es un modelo para clasificación binaria. Combina las variables de entrada en una puntuación lineal, hace pasar esa puntuación por la función sigmoide y produce un número entre y que se interpreta, bajo el modelo ajustado, como la probabilidad estimada de la clase positiva.
A pesar del nombre, la regresión logística suele usarse para decidir entre dos clases, como aprobado/reprobado, spam/no spam o impago/no impago. La palabra "regresión" se refiere a la fórmula lineal dentro del modelo, no a predecir una salida continua.
Fórmula de la regresión logística de un vistazo
La regresión logística binaria usa
con la función sigmoide
La parte lineal puede ser cualquier número real. La sigmoide comprime ese valor en , por eso la salida puede usarse como una estimación de probabilidad.
Por qué importa la función sigmoide
Si usaras la puntuación lineal bruta como probabilidad, podrías obtener valores imposibles como o . La sigmoide corrige eso al llevar puntuaciones muy negativas cerca de , puntuaciones muy positivas cerca de y puntuaciones cercanas a cerca de .
Eso da una interpretación práctica:
- si es muy negativo, el modelo se inclina por la clase
- si está cerca de , el modelo es incierto
- si es muy positivo, el modelo se inclina por la clase
La curva es más empinada cerca de . Así, un pequeño cambio en la puntuación puede cambiar mucho la probabilidad cerca de , pero mucho menos cuando la probabilidad ya está cerca de o de .
Ejemplo resuelto de regresión logística
Supón que un modelo usa una sola variable y tiene
Puedes pensar en como una puntuación de examen y en como "aprueba". Los coeficientes aquí son solo un ejemplo para mostrar el mecanismo.
Si , entonces
Así que la probabilidad predicha es
Si , entonces
y
Así, el mismo modelo da aproximadamente un de probabilidad de aprobar cuando y aproximadamente un cuando . La puntuación aumentó en , pero la salida final se mantuvo entre y porque la sigmoide transforma el resultado en una probabilidad.
Si ahora eliges un umbral de , el primer caso se clasifica como clase y el segundo como clase . Ese último paso depende del umbral. La estimación de probabilidad en sí no.
Un atajo útil: con un umbral de , la clase cambia exactamente cuando , porque .
Cómo la regresión logística se convierte en un clasificador
La salida del modelo es una estimación de probabilidad. La regla de clasificación se añade después.
Por ejemplo, con umbral :
- predice la clase si
- predice la clase si
Pero no siempre es el umbral correcto. Si los falsos positivos y los falsos negativos tienen costes distintos, o si las clases están muy desbalanceadas, otro umbral puede funcionar mejor.
Qué significan los coeficientes
El signo de un coeficiente te dice la dirección del efecto sobre la puntuación lineal :
- si , aumentar eleva y tiende a aumentar
- si , aumentar reduce y tiende a disminuir
Esa parte es directa. El punto sutil es que la probabilidad no cambia linealmente con la variable, porque la curva sigmoide no es una línea recta.
En la regresión logística estándar, el modelo lineal está en la escala de los log-odds:
Esto significa que cada aumento de una unidad en una variable cambia linealmente los log-odds cuando las demás variables se mantienen fijas. Eso es más preciso que decir que cambia la probabilidad en una cantidad fija.
Errores comunes en regresión logística
Tratar la salida como una clase garantizada
Una predicción como no significa que el evento vaya a ocurrir. Significa que el modelo asigna aproximadamente una probabilidad estimada del a la clase positiva para esa entrada.
Suponer que el umbral debe ser
es común, pero es una elección, no una ley. El mejor umbral depende de la aplicación.
Pensar que la probabilidad cambia linealmente
La puntuación es lineal en las entradas, pero la probabilidad no. Un cambio de una unidad en una variable puede tener un efecto distinto cerca de que cerca de .
Olvidar que el modelo es binario salvo que se extienda
La regresión logística básica maneja dos clases. Existen versiones multiclase, pero son extensiones, no la misma configuración binaria escrita de otra forma.
Cuándo se usa la regresión logística
La regresión logística se usa a menudo cuando la variable objetivo es sí/no, como en detección de spam, presencia de enfermedad, abandono de clientes, impago de préstamos o resultados de aprobado/reprobado.
Sigue siendo popular porque es simple, rápida y razonablemente interpretable. Es especialmente útil cuando quieres un clasificador base, cuando el conjunto de datos no es enorme o cuando necesitas probabilidades estimadas en lugar de solo etiquetas duras.
Una forma sencilla de visualizarla
Piensa en la regresión logística como una máquina de dos pasos:
- Sumar evidencia con una puntuación lineal.
- Convertir esa puntuación en una probabilidad con la sigmoide.
Esa idea basta para entender la mayoría de los ejemplos introductorios y para ver por qué la regresión logística se sitúa entre los modelos lineales y las tareas de clasificación.
Prueba un problema similar de regresión logística
Elige una puntuación simple como
Calcula para algunos valores de , como , y . Observa cómo la puntuación lineal cambia de forma constante mientras la probabilidad se curva con forma de S. Luego prueba un umbral distinto y mira cuándo cambia la clase predicha.
¿Necesitas ayuda con un problema?
Sube tu pregunta y obtén una solución verificada, paso a paso, en segundos.
Abrir GPAI Solver →