La regresión lineal es una forma de describir cómo cambia una variable con otra usando una recta de mejor ajuste. En la regresión lineal simple, con una variable de entrada y una variable de salida , el modelo es
Aquí, es el valor predicho, es la pendiente y es la intersección. El método de ajuste habitual es el de mínimos cuadrados ordinarios, que elige la recta que hace que los residuos al cuadrado sean lo más pequeños posible:
Si solo necesitas la idea principal, recuerda esto: la pendiente te dice el cambio predicho por el modelo en por un aumento de una unidad en , siempre que una recta sea un ajuste razonable.
Ecuación de la regresión lineal: qué te dice
La pendiente te dice el cambio predicho en cuando aumenta en , si un modelo lineal describe razonablemente los datos. La intersección es el valor predicho de cuando .
La palabra “predicho” importa. Una recta de regresión normalmente no pasa por todos los puntos. En cambio, equilibra los errores entre todos los puntos, así que resume la tendencia en lugar de coincidir con cada observación.
Fórmula de la regresión lineal para y
Para la regresión lineal simple, si los valores de no son todos iguales, los coeficientes de mínimos cuadrados pueden escribirse como
y
Aquí, es la media de los valores de y es la media de los valores de . Estas fórmulas son para regresión lineal simple. Si tienes más de una variable de entrada, el planteamiento cambia.
Por qué mínimos cuadrados usa residuos al cuadrado
Piensa en los puntos de datos como una nube en un diagrama de dispersión. Muchas rectas podrían pasar cerca de esa nube. La regresión lineal elige la recta que mantiene pequeños, en conjunto, los errores verticales, llamados residuos.
Elevar al cuadrado los residuos hace dos cosas útiles. Evita que los errores positivos y negativos se cancelen entre sí, y da más peso a los errores grandes.
Ejemplo de regresión lineal simple
Supón que los puntos de datos son , , y . Vamos a ajustar una recta de regresión lineal simple.
Primero, calcula las medias:
Ahora calcula la pendiente:
Luego calcula la intersección:
Así que la ecuación de regresión es
Si , el modelo predice
También puedes comprobar un residuo. En , el valor predicho es
El valor real es , así que el residuo es
Ese punto está unidades por debajo de la recta de regresión. Un solo residuo no te dice si todo el modelo es bueno, pero sí muestra cómo la regresión mide el error.
Errores comunes en regresión lineal
Un error es suponer que la recta debe pasar por todos los puntos. La regresión trata del mejor ajuste, no del ajuste perfecto.
Otro error es interpretar la pendiente como una regla exacta para cada punto de datos. La pendiente es un cambio promedio predicho por el modelo.
Un tercer error es tratar la regresión como prueba de causalidad. Un patrón lineal fuerte puede apoyar la predicción o describir asociación, pero por sí solo no explica por qué las variables se mueven juntas.
También es fácil confiar demasiado en predicciones fuera del rango de datos observado. La extrapolación puede fallar incluso cuando la recta ajustada se ve bien dentro del rango original.
Cuándo usar la regresión lineal
La regresión lineal se usa cuando un resumen con una recta es útil y la relación es al menos aproximadamente lineal en el rango que te interesa. Algunos usos comunes incluyen estimar el precio a partir del tamaño, la puntuación a partir del tiempo de estudio o la salida a partir de la entrada bajo condiciones estables.
Es especialmente útil cuando quieres un modelo interpretable. La pendiente, la intersección y los residuos son lo bastante simples como para explicarlos sin ocultar lo que hace el modelo.
Una comprobación rápida antes de confiar en la recta
Antes de usar una recta de regresión, hazte dos preguntas. ¿Un diagrama de dispersión se ve aproximadamente lineal? ¿El contexto hace que la pendiente tenga sentido en lugar de ser engañosa? Si alguna respuesta es no, puede que otro modelo sea mejor.
Prueba un problema similar
Elige cuatro puntos, haz un boceto y ajusta una recta con calculadora o software. Luego compara los valores predichos con los reales. Observar los residuos suele ser la forma más rápida de entender qué está haciendo realmente la recta de regresión.
¿Necesitas ayuda con un problema?
Sube tu pregunta y obtén una solución verificada, paso a paso, en segundos.
Abrir GPAI Solver →