El análisis de regresión explica cómo cambia una variable resultado cuando cambian uno o más predictores. Usa regresión lineal simple para un predictor y una variable resultado numérica, regresión lineal múltiple para varios predictores y una variable resultado numérica, y regresión logística para una variable resultado binaria como aprobar/suspender.
Esa distinción responde rápidamente a la principal duda de búsqueda:
- Regresión lineal simple: un predictor, variable resultado numérica.
- Regresión lineal múltiple: varios predictores, variable resultado numérica.
- Regresión logística: variable resultado binaria como sí/no, aprobar/suspender o hizo clic/no hizo clic.
Después de eso, el verdadero trabajo es la interpretación. Un coeficiente solo significa lo que crees que significa si el modelo coincide con el tipo de variable resultado y se ajusta razonablemente bien a los datos.
Qué hace el análisis de regresión
La regresión no solo traza una línea entre puntos. Construye una regla que relaciona los predictores con un resultado esperado, para que puedas explicar patrones o hacer predicciones.
En la regresión lineal, esa regla es un modelo de línea recta para el valor esperado de la variable resultado. En la regresión logística, el modelo se construye para probabilidades, de modo que los valores predichos se mantengan entre y .
Regresión lineal simple: un predictor, variable resultado numérica
La regresión lineal simple usa un predictor y una variable resultado numérica :
Aquí es el resultado predicho, es la intersección y es la pendiente.
La pendiente te dice el cambio predicho en por un aumento de una unidad en , si un patrón lineal es una aproximación razonable en el rango que te interesa.
Regresión lineal múltiple: varios predictores, una variable resultado numérica
La regresión lineal múltiple mantiene la misma idea básica, pero usa más de un predictor:
Esto es útil cuando un solo predictor es demasiado simple. Los resultados reales suelen depender de varios factores al mismo tiempo.
El cambio clave en la interpretación es importante: es el cambio predicho en por un aumento de una unidad en , mientras los demás predictores incluidos se mantienen fijos.
Esa condición de “mantener fijos los demás predictores” es lo que hace que la regresión múltiple sea diferente de una serie de comparaciones de una sola variable.
Regresión logística: resultados binarios y probabilidades
La regresión logística es para una variable resultado binaria, no numérica. Si el resultado es algo como admitido o no admitido, abandonó o permaneció, o aprobó o suspendió, la regresión lineal suele ser la herramienta equivocada.
En lugar de modelar el resultado mismo como una línea recta, la regresión logística modela el logaritmo de las odds del resultado:
donde .
El lado izquierdo es el logaritmo de las odds, no la probabilidad en sí. Esto importa porque las probabilidades deben mantenerse entre y : un modelo lineal simple puede predecir valores imposibles como o , pero la regresión logística no.
Ejemplo resuelto: predecir una nota frente a predecir aprobar/suspender
Supón que un profesor quiere estudiar el rendimiento de sus estudiantes.
Si la variable resultado es la nota del examen y el único predictor son las horas de estudio, un modelo lineal simple podría ser
Si un estudiante estudia horas, la nota predicha es
Aquí la pendiente dice que la nota predicha aumenta en puntos por cada hora extra de estudio, si el modelo lineal se ajusta razonablemente bien.
Ahora supón que el profesor también incluye las horas de sueño y el número de cuestionarios de práctica. Un modelo de regresión múltiple podría ser
donde son las horas de estudio, son las horas de sueño y son los cuestionarios de práctica completados.
El coeficiente ahora tiene un significado más específico: es el cambio predicho en la nota por una hora más de estudio, manteniendo fijos el sueño y los cuestionarios de práctica.
Ahora cambia la pregunta. En lugar de predecir una nota, supón que el profesor quiere la probabilidad de que un estudiante apruebe. Eso hace que la variable resultado sea binaria, así que la regresión logística es la opción natural:
Si un estudiante estudia horas y duerme horas, entonces
así que la probabilidad predicha es
Este modelo predice aproximadamente un de probabilidad de aprobar. Los números exactos son solo un ejemplo. La idea clave es que cuando la variable resultado cambia de una nota a aprobar/suspender, la familia de regresión también debe cambiar.
Errores comunes en el análisis de regresión
Usar regresión lineal para una variable resultado binaria
Si la variable resultado solo puede ser o , la regresión logística suele ser más apropiada porque está diseñada para probabilidades. La regresión lineal puede usarse en algunos casos especiales como aproximación, pero también puede producir malas predicciones de probabilidad.
Tratar la regresión como prueba de causalidad
La regresión puede describir asociación y apoyar la predicción. No demuestra, por sí sola, que cambiar una variable cause un cambio en el resultado.
Ignorar las condiciones del modelo
Un coeficiente solo significa lo que crees que significa si el modelo elegido se ajusta razonablemente bien. En regresión lineal, eso suele significar comprobar si un resumen en línea recta tiene sentido y si los errores muestran un patrón que el modelo no captó.
Sobreinterpretar los coeficientes de la regresión múltiple
En regresión múltiple, un coeficiente es condicional a los demás predictores incluidos. Si faltan variables importantes, o si los predictores están fuertemente entrelazados entre sí, la interpretación se vuelve menos estable.
Dónde se usa el análisis de regresión
La regresión se usa cuando quieres explicar variación, estimar relaciones condicionales o hacer predicciones a partir de datos.
La verás en previsión empresarial, medicina, ciencias sociales, control de calidad, educación y aprendizaje automático. La forma exacta depende de la variable resultado: los resultados numéricos suelen llevar a modelos lineales, mientras que los resultados binarios suelen llevar a modelos logísticos.
Cómo elegir el modelo de regresión correcto
Hazte primero estas dos preguntas:
- ¿La variable resultado es numérica o binaria?
- ¿Cuántos predictores quiero incluir?
Si la variable resultado es numérica, empieza con regresión lineal. Si hay un predictor, es regresión lineal simple. Si hay varios, es regresión lineal múltiple.
Si la variable resultado es binaria, empieza con regresión logística.
Eso no garantiza que el modelo sea bueno, pero te lleva rápidamente a la familia de modelos correcta.
Prueba un problema similar
Toma un conjunto de datos pequeño y hazle dos preguntas distintas. Primero predice una variable resultado numérica, como una nota. Después convierte la variable resultado en una versión binaria, como aprobar o suspender. Esa comparación lado a lado es una de las formas más rápidas de entender de verdad el análisis de regresión.
¿Necesitas ayuda con un problema?
Sube tu pregunta y obtén una solución verificada, paso a paso, en segundos.
Abrir GPAI Solver →