Análisis de regresión — simple, múltiple y logística

El análisis de regresión explica cómo cambia una variable resultado cuando cambian uno o más predictores. Usa regresión lineal simple para un predictor y una variable resultado numérica, regresión lineal múltiple para varios predictores y una variable resultado numérica, y regresión logística para una variable resultado binaria como aprobar/suspender.

Esa distinción responde rápidamente a la principal duda de búsqueda:

Regresión lineal simple: un predictor, variable resultado numérica.
Regresión lineal múltiple: varios predictores, variable resultado numérica.
Regresión logística: variable resultado binaria como sí/no, aprobar/suspender o hizo clic/no hizo clic.

Después de eso, el verdadero trabajo es la interpretación. Un coeficiente solo significa lo que crees que significa si el modelo coincide con el tipo de variable resultado y se ajusta razonablemente bien a los datos.

Qué hace el análisis de regresión

La regresión no solo traza una línea entre puntos. Construye una regla que relaciona los predictores con un resultado esperado, para que puedas explicar patrones o hacer predicciones.

En la regresión lineal, esa regla es un modelo de línea recta para el valor esperado de la variable resultado. En la regresión logística, el modelo se construye para probabilidades, de modo que los valores predichos se mantengan entre $0$ y $1$ .

Regresión lineal simple: un predictor, variable resultado numérica

La regresión lineal simple usa un predictor $x$ y una variable resultado numérica $y$ :

\hat{y} = b_0 + b_1x

Aquí $\hat{y}$ es el resultado predicho, $b_0$ es la intersección y $b_1$ es la pendiente.

La pendiente $b_1$ te dice el cambio predicho en $y$ por un aumento de una unidad en $x$ , si un patrón lineal es una aproximación razonable en el rango que te interesa.

Regresión lineal múltiple: varios predictores, una variable resultado numérica

La regresión lineal múltiple mantiene la misma idea básica, pero usa más de un predictor:

\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

Esto es útil cuando un solo predictor es demasiado simple. Los resultados reales suelen depender de varios factores al mismo tiempo.

El cambio clave en la interpretación es importante: $b_1$ es el cambio predicho en $y$ por un aumento de una unidad en $x_1$ , mientras los demás predictores incluidos se mantienen fijos.

Esa condición de “mantener fijos los demás predictores” es lo que hace que la regresión múltiple sea diferente de una serie de comparaciones de una sola variable.

Regresión logística: resultados binarios y probabilidades

La regresión logística es para una variable resultado binaria, no numérica. Si el resultado es algo como admitido o no admitido, abandonó o permaneció, o aprobó o suspendió, la regresión lineal suele ser la herramienta equivocada.

En lugar de modelar el resultado mismo como una línea recta, la regresión logística modela el logaritmo de las odds del resultado:

\log\left(\frac{p}{1-p}\right) = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

donde $p = P(Y=1 \mid x_1, x_2, \ldots, x_p)$ .

El lado izquierdo es el logaritmo de las odds, no la probabilidad en sí. Esto importa porque las probabilidades deben mantenerse entre $0$ y $1$ : un modelo lineal simple puede predecir valores imposibles como $1.2$ o $-0.1$ , pero la regresión logística no.

Ejemplo resuelto: predecir una nota frente a predecir aprobar/suspender

Supón que un profesor quiere estudiar el rendimiento de sus estudiantes.

Si la variable resultado es la nota del examen y el único predictor son las horas de estudio, un modelo lineal simple podría ser

\hat{y} = 42 + 5x

Si un estudiante estudia $6$ horas, la nota predicha es

\hat{y} = 42 + 5(6) = 72

Aquí la pendiente dice que la nota predicha aumenta en $5$ puntos por cada hora extra de estudio, si el modelo lineal se ajusta razonablemente bien.

Ahora supón que el profesor también incluye las horas de sueño y el número de cuestionarios de práctica. Un modelo de regresión múltiple podría ser

\hat{y} = 20 + 4x_1 + 2x_2 + 1.5x_3

donde $x_1$ son las horas de estudio, $x_2$ son las horas de sueño y $x_3$ son los cuestionarios de práctica completados.

El coeficiente $4$ ahora tiene un significado más específico: es el cambio predicho en la nota por una hora más de estudio, manteniendo fijos el sueño y los cuestionarios de práctica.

Ahora cambia la pregunta. En lugar de predecir una nota, supón que el profesor quiere la probabilidad de que un estudiante apruebe. Eso hace que la variable resultado sea binaria, así que la regresión logística es la opción natural:

\log\left(\frac{p}{1-p}\right) = -6 + 0.8x_1 + 0.5x_2

Si un estudiante estudia $6$ horas y duerme $7$ horas, entonces

-6 + 0.8(6) + 0.5(7) = 2.3

así que la probabilidad predicha es

p = \frac{1}{1 + e^{-2.3}} \approx 0.91

Este modelo predice aproximadamente un $91\%$ de probabilidad de aprobar. Los números exactos son solo un ejemplo. La idea clave es que cuando la variable resultado cambia de una nota a aprobar/suspender, la familia de regresión también debe cambiar.

Errores comunes en el análisis de regresión

Usar regresión lineal para una variable resultado binaria

Si la variable resultado solo puede ser $0$ o $1$ , la regresión logística suele ser más apropiada porque está diseñada para probabilidades. La regresión lineal puede usarse en algunos casos especiales como aproximación, pero también puede producir malas predicciones de probabilidad.

Tratar la regresión como prueba de causalidad

La regresión puede describir asociación y apoyar la predicción. No demuestra, por sí sola, que cambiar una variable cause un cambio en el resultado.

Ignorar las condiciones del modelo

Un coeficiente solo significa lo que crees que significa si el modelo elegido se ajusta razonablemente bien. En regresión lineal, eso suele significar comprobar si un resumen en línea recta tiene sentido y si los errores muestran un patrón que el modelo no captó.

Sobreinterpretar los coeficientes de la regresión múltiple

En regresión múltiple, un coeficiente es condicional a los demás predictores incluidos. Si faltan variables importantes, o si los predictores están fuertemente entrelazados entre sí, la interpretación se vuelve menos estable.

Dónde se usa el análisis de regresión

La regresión se usa cuando quieres explicar variación, estimar relaciones condicionales o hacer predicciones a partir de datos.

La verás en previsión empresarial, medicina, ciencias sociales, control de calidad, educación y aprendizaje automático. La forma exacta depende de la variable resultado: los resultados numéricos suelen llevar a modelos lineales, mientras que los resultados binarios suelen llevar a modelos logísticos.

Cómo elegir el modelo de regresión correcto

Hazte primero estas dos preguntas:

¿La variable resultado es numérica o binaria?
¿Cuántos predictores quiero incluir?

Si la variable resultado es numérica, empieza con regresión lineal. Si hay un predictor, es regresión lineal simple. Si hay varios, es regresión lineal múltiple.

Si la variable resultado es binaria, empieza con regresión logística.

Eso no garantiza que el modelo sea bueno, pero te lleva rápidamente a la familia de modelos correcta.

Prueba un problema similar

Toma un conjunto de datos pequeño y hazle dos preguntas distintas. Primero predice una variable resultado numérica, como una nota. Después convierte la variable resultado en una versión binaria, como aprobar o suspender. Esa comparación lado a lado es una de las formas más rápidas de entender de verdad el análisis de regresión.

¿Necesitas ayuda con un problema?

Sube tu pregunta y obtén una solución verificada, paso a paso, en segundos.

Abrir GPAI Solver →