La regresión lineal es una forma de describir cómo cambia una variable con otra usando una recta de mejor ajuste. En la regresión lineal simple, con una variable de entrada xx y una variable de salida yy, el modelo es

y^=b0+b1x\hat{y} = b_0 + b_1x

Aquí, y^\hat{y} es el valor predicho, b1b_1 es la pendiente y b0b_0 es la intersección. El método de ajuste habitual es el de mínimos cuadrados ordinarios, que elige la recta que hace que los residuos al cuadrado sean lo más pequeños posible:

i=1n(yiy^i)2=i=1n(yi(b0+b1xi))2\sum_{i=1}^n \left(y_i - \hat{y}_i\right)^2 = \sum_{i=1}^n \left(y_i - (b_0 + b_1x_i)\right)^2

Si solo necesitas la idea principal, recuerda esto: la pendiente te dice el cambio predicho por el modelo en yy por un aumento de una unidad en xx, siempre que una recta sea un ajuste razonable.

Ecuación de la regresión lineal: qué te dice

La pendiente b1b_1 te dice el cambio predicho en yy cuando xx aumenta en 11, si un modelo lineal describe razonablemente los datos. La intersección b0b_0 es el valor predicho de yy cuando x=0x = 0.

La palabra “predicho” importa. Una recta de regresión normalmente no pasa por todos los puntos. En cambio, equilibra los errores entre todos los puntos, así que resume la tendencia en lugar de coincidir con cada observación.

Fórmula de la regresión lineal para b0b_0 y b1b_1

Para la regresión lineal simple, si los valores de xx no son todos iguales, los coeficientes de mínimos cuadrados pueden escribirse como

b1=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2b_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}

y

b0=yˉb1xˉb_0 = \bar{y} - b_1\bar{x}

Aquí, xˉ\bar{x} es la media de los valores de xx y yˉ\bar{y} es la media de los valores de yy. Estas fórmulas son para regresión lineal simple. Si tienes más de una variable de entrada, el planteamiento cambia.

Por qué mínimos cuadrados usa residuos al cuadrado

Piensa en los puntos de datos como una nube en un diagrama de dispersión. Muchas rectas podrían pasar cerca de esa nube. La regresión lineal elige la recta que mantiene pequeños, en conjunto, los errores verticales, llamados residuos.

Elevar al cuadrado los residuos hace dos cosas útiles. Evita que los errores positivos y negativos se cancelen entre sí, y da más peso a los errores grandes.

Ejemplo de regresión lineal simple

Supón que los puntos de datos son (1,2)(1,2), (2,2)(2,2), (3,4)(3,4) y (4,4)(4,4). Vamos a ajustar una recta de regresión lineal simple.

Primero, calcula las medias:

xˉ=1+2+3+44=2.5\bar{x} = \frac{1+2+3+4}{4} = 2.5 yˉ=2+2+4+44=3\bar{y} = \frac{2+2+4+4}{4} = 3

Ahora calcula la pendiente:

b1=(1.5)(1)+(0.5)(1)+(0.5)(1)+(1.5)(1)(1.5)2+(0.5)2+(0.5)2+(1.5)2b_1 = \frac{(-1.5)(-1)+(-0.5)(-1)+(0.5)(1)+(1.5)(1)}{(-1.5)^2+(-0.5)^2+(0.5)^2+(1.5)^2} b1=45=0.8b_1 = \frac{4}{5} = 0.8

Luego calcula la intersección:

b0=yˉb1xˉ=30.8(2.5)=1b_0 = \bar{y} - b_1\bar{x} = 3 - 0.8(2.5) = 1

Así que la ecuación de regresión es

y^=1+0.8x\hat{y} = 1 + 0.8x

Si x=5x=5, el modelo predice

y^=1+0.8(5)=5\hat{y} = 1 + 0.8(5) = 5

También puedes comprobar un residuo. En x=2x=2, el valor predicho es

y^=1+0.8(2)=2.6\hat{y} = 1 + 0.8(2) = 2.6

El valor real es 22, así que el residuo es

yy^=22.6=0.6y-\hat{y} = 2 - 2.6 = -0.6

Ese punto está 0.60.6 unidades por debajo de la recta de regresión. Un solo residuo no te dice si todo el modelo es bueno, pero sí muestra cómo la regresión mide el error.

Errores comunes en regresión lineal

Un error es suponer que la recta debe pasar por todos los puntos. La regresión trata del mejor ajuste, no del ajuste perfecto.

Otro error es interpretar la pendiente como una regla exacta para cada punto de datos. La pendiente es un cambio promedio predicho por el modelo.

Un tercer error es tratar la regresión como prueba de causalidad. Un patrón lineal fuerte puede apoyar la predicción o describir asociación, pero por sí solo no explica por qué las variables se mueven juntas.

También es fácil confiar demasiado en predicciones fuera del rango de datos observado. La extrapolación puede fallar incluso cuando la recta ajustada se ve bien dentro del rango original.

Cuándo usar la regresión lineal

La regresión lineal se usa cuando un resumen con una recta es útil y la relación es al menos aproximadamente lineal en el rango que te interesa. Algunos usos comunes incluyen estimar el precio a partir del tamaño, la puntuación a partir del tiempo de estudio o la salida a partir de la entrada bajo condiciones estables.

Es especialmente útil cuando quieres un modelo interpretable. La pendiente, la intersección y los residuos son lo bastante simples como para explicarlos sin ocultar lo que hace el modelo.

Una comprobación rápida antes de confiar en la recta

Antes de usar una recta de regresión, hazte dos preguntas. ¿Un diagrama de dispersión se ve aproximadamente lineal? ¿El contexto hace que la pendiente tenga sentido en lugar de ser engañosa? Si alguna respuesta es no, puede que otro modelo sea mejor.

Prueba un problema similar

Elige cuatro puntos, haz un boceto y ajusta una recta con calculadora o software. Luego compara los valores predichos con los reales. Observar los residuos suele ser la forma más rápida de entender qué está haciendo realmente la recta de regresión.

¿Necesitas ayuda con un problema?

Sube tu pregunta y obtén una solución verificada, paso a paso, en segundos.

Abrir GPAI Solver →