¿Qué es la regresión lineal en términos simples?

La regresión lineal ajusta una línea recta a los datos para que puedas describir o predecir cómo cambia una variable cuando cambia otra.

¿Qué ecuación usa la regresión lineal?

En la regresión lineal simple, la recta ajustada se escribe como $\hat{y} = b_0 + b_1x$, donde $b_0$ es la intersección y $b_1$ es la pendiente.

¿La regresión lineal demuestra causa y efecto?

No. Una recta de regresión puede describir asociación y apoyar la predicción, pero por sí sola no establece causalidad.

Regresión lineal — Ecuación, fórmula y ejemplos

La regresión lineal es una forma de describir cómo cambia una variable con otra usando una recta de mejor ajuste. En la regresión lineal simple, con una variable de entrada $x$ y una variable de salida $y$ , el modelo es

\hat{y} = b_0 + b_1x

Aquí, $\hat{y}$ es el valor predicho, $b_1$ es la pendiente y $b_0$ es la intersección. El método de ajuste habitual es el de mínimos cuadrados ordinarios, que elige la recta que hace que los residuos al cuadrado sean lo más pequeños posible:

\sum_{i=1}^n \left(y_i - \hat{y}_i\right)^2 = \sum_{i=1}^n \left(y_i - (b_0 + b_1x_i)\right)^2

Si solo necesitas la idea principal, recuerda esto: la pendiente te dice el cambio predicho por el modelo en $y$ por un aumento de una unidad en $x$ , siempre que una recta sea un ajuste razonable.

Ecuación de la regresión lineal: qué te dice

La pendiente $b_1$ te dice el cambio predicho en $y$ cuando $x$ aumenta en $1$ , si un modelo lineal describe razonablemente los datos. La intersección $b_0$ es el valor predicho de $y$ cuando $x = 0$ .

La palabra “predicho” importa. Una recta de regresión normalmente no pasa por todos los puntos. En cambio, equilibra los errores entre todos los puntos, así que resume la tendencia en lugar de coincidir con cada observación.

Fórmula de la regresión lineal para $b_0$ y $b_1$

Para la regresión lineal simple, si los valores de $x$ no son todos iguales, los coeficientes de mínimos cuadrados pueden escribirse como

b_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}

b_0 = \bar{y} - b_1\bar{x}

Aquí, $\bar{x}$ es la media de los valores de $x$ y $\bar{y}$ es la media de los valores de $y$ . Estas fórmulas son para regresión lineal simple. Si tienes más de una variable de entrada, el planteamiento cambia.

Por qué mínimos cuadrados usa residuos al cuadrado

Piensa en los puntos de datos como una nube en un diagrama de dispersión. Muchas rectas podrían pasar cerca de esa nube. La regresión lineal elige la recta que mantiene pequeños, en conjunto, los errores verticales, llamados residuos.

Elevar al cuadrado los residuos hace dos cosas útiles. Evita que los errores positivos y negativos se cancelen entre sí, y da más peso a los errores grandes.

Ejemplo de regresión lineal simple

Supón que los puntos de datos son $(1,2)$ , $(2,2)$ , $(3,4)$ y $(4,4)$ . Vamos a ajustar una recta de regresión lineal simple.

Primero, calcula las medias:

\bar{x} = \frac{1+2+3+4}{4} = 2.5

\bar{y} = \frac{2+2+4+4}{4} = 3

Ahora calcula la pendiente:

b_1 = \frac{(-1.5)(-1)+(-0.5)(-1)+(0.5)(1)+(1.5)(1)}{(-1.5)^2+(-0.5)^2+(0.5)^2+(1.5)^2}

b_1 = \frac{4}{5} = 0.8

Luego calcula la intersección:

b_0 = \bar{y} - b_1\bar{x} = 3 - 0.8(2.5) = 1

Así que la ecuación de regresión es

\hat{y} = 1 + 0.8x

Si $x=5$ , el modelo predice

\hat{y} = 1 + 0.8(5) = 5

También puedes comprobar un residuo. En $x=2$ , el valor predicho es

\hat{y} = 1 + 0.8(2) = 2.6

El valor real es $2$ , así que el residuo es

y-\hat{y} = 2 - 2.6 = -0.6

Ese punto está $0.6$ unidades por debajo de la recta de regresión. Un solo residuo no te dice si todo el modelo es bueno, pero sí muestra cómo la regresión mide el error.

Errores comunes en regresión lineal

Un error es suponer que la recta debe pasar por todos los puntos. La regresión trata del mejor ajuste, no del ajuste perfecto.

Otro error es interpretar la pendiente como una regla exacta para cada punto de datos. La pendiente es un cambio promedio predicho por el modelo.

Un tercer error es tratar la regresión como prueba de causalidad. Un patrón lineal fuerte puede apoyar la predicción o describir asociación, pero por sí solo no explica por qué las variables se mueven juntas.

También es fácil confiar demasiado en predicciones fuera del rango de datos observado. La extrapolación puede fallar incluso cuando la recta ajustada se ve bien dentro del rango original.

Cuándo usar la regresión lineal

La regresión lineal se usa cuando un resumen con una recta es útil y la relación es al menos aproximadamente lineal en el rango que te interesa. Algunos usos comunes incluyen estimar el precio a partir del tamaño, la puntuación a partir del tiempo de estudio o la salida a partir de la entrada bajo condiciones estables.

Es especialmente útil cuando quieres un modelo interpretable. La pendiente, la intersección y los residuos son lo bastante simples como para explicarlos sin ocultar lo que hace el modelo.

Una comprobación rápida antes de confiar en la recta

Antes de usar una recta de regresión, hazte dos preguntas. ¿Un diagrama de dispersión se ve aproximadamente lineal? ¿El contexto hace que la pendiente tenga sentido en lugar de ser engañosa? Si alguna respuesta es no, puede que otro modelo sea mejor.

Prueba un problema similar

Elige cuatro puntos, haz un boceto y ajusta una recta con calculadora o software. Luego compara los valores predichos con los reales. Observar los residuos suele ser la forma más rápida de entender qué está haciendo realmente la recta de regresión.

¿Necesitas ayuda con un problema?

Sube tu pregunta y obtén una solución verificada, paso a paso, en segundos.

Abrir GPAI Solver →