Prueba t — Tipos, fórmula y cuándo usarla

Una prueba t te ayuda a decidir si la media de una muestra, o la diferencia entre dos medias muestrales, es mayor de lo que cabría esperar solo por variación aleatoria. Se usa cuando la variable de resultado es numérica y la desviación estándar poblacional es desconocida, que es lo habitual en situaciones reales.

La condición clave es que la prueba debe ajustarse al diseño de los datos. Una prueba t sirve para preguntas sobre medias, no para conteos categóricos, y con muestras muy pequeñas hay que tener cuidado si hay una asimetría fuerte o valores atípicos evidentes.

Qué mide una prueba t

La idea básica es siempre la misma:

t = \frac{\text{observed difference}}{\text{estimated standard error}}

El estadístico aumenta cuando la diferencia de medias es grande, y disminuye cuando los datos son ruidosos o la muestra es pequeña.

Bajo la hipótesis nula, y si las condiciones son razonables, este estadístico sigue una distribución $t$ en lugar de una distribución normal $z$ . La distribución $t$ tiene colas más pesadas, especialmente con muestras pequeñas, por lo que es más cautelosa al declarar que un resultado es significativo.

Qué tipo de prueba t debes usar

Prueba t de una muestra

Úsala cuando tienes una sola muestra y quieres comparar su media con un valor de referencia $\mu_0$ .

t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}

Ejemplo: comparar el peso promedio de los paquetes en una muestra con un objetivo de $100$ gramos.

Prueba t de dos muestras

Úsala cuando quieres comparar las medias de dos grupos independientes, como dos clases enseñadas con métodos distintos.

Si no tienes una razón sólida para suponer varianzas poblacionales iguales, la prueba t de Welch suele ser la opción más segura por defecto:

t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

Los grados de libertad en la prueba de Welch no son simplemente $n_1 + n_2 - 2$ , así que normalmente el software se encarga de esa parte.

Prueba t pareada

Úsala para datos de antes y después o para pares emparejados. La prueba no se aplica por separado a las dos columnas originales. Se aplica a las diferencias dentro de cada par.

t = \frac{\bar{d} - \mu_{d,0}}{s_d / \sqrt{n}}

En muchos problemas pareados, el valor nulo es $\mu_{d,0} = 0$ , lo que significa que el cambio promedio es cero.

Cuándo es apropiada una prueba t

Una prueba t encaja bien cuando todo esto es razonablemente cierto:

La variable de resultado es numérica.
Las observaciones son independientes dentro del diseño elegido, salvo que estés usando intencionalmente un esquema pareado.
La pregunta trata sobre una media o una diferencia de medias.
La muestra no es tan pequeña ni está tan distorsionada por valores atípicos o una asimetría fuerte como para que la media y la desviación estándar resulten engañosas.

Si la desviación estándar poblacional se conociera exactamente, una prueba $z$ de manual sería la alternativa directa. En la práctica, las pruebas t son comunes porque $\sigma$ normalmente es desconocida.

Ejemplo resuelto: una prueba t de una muestra

Supón que un proceso de envasado debería tener una media de $100$ gramos. Tomas una muestra aleatoria de $25$ paquetes y obtienes

\bar{x} = 102, \quad s = 4

Quieres saber si la media verdadera difiere de $100$ gramos.

Como se trata de una muestra comparada con un valor objetivo, la prueba correcta es una prueba t de una muestra.

Empieza con las hipótesis:

H_0: \mu = 100

H_1: \mu \ne 100

El error estándar es

\frac{s}{\sqrt{n}} = \frac{4}{\sqrt{25}} = \frac{4}{5} = 0.8

Ahora calcula el estadístico de prueba:

t = \frac{102 - 100}{0.8} = 2.5

Los grados de libertad son

df = n - 1 = 24

Para una prueba bilateral con $df = 24$ , un valor de $t = 2.5$ da un valor p inferior a $0.05$ . Eso significa que el resultado es estadísticamente significativo al nivel del $5\%$ , así que rechazas $H_0$ .

En contexto, la muestra aporta evidencia de que la media del proceso es distinta de $100$ gramos. Esa conclusión depende de que la muestra sea razonablemente independiente y no esté muy distorsionada por valores atípicos.

Errores comunes con las pruebas t

Un error común es elegir la versión incorrecta de la prueba. Si se mide dos veces a las mismas personas, máquinas o unidades, los datos son pareados, así que una prueba t de dos muestras independientes no es apropiada.

Otro error es interpretar “no estadísticamente significativo” como “no hay diferencia”. Normalmente significa que la muestra no aportó evidencia suficientemente fuerte contra la hipótesis nula.

Un tercer error es saltarse la revisión de los datos. Con una muestra minúscula y un valor atípico extremo, la fórmula sigue produciendo un número, pero la conclusión puede no ser fiable.

Dónde se usan las pruebas t

Las pruebas t son comunes en experimentos, control de calidad, medicina, psicología, educación y comparaciones de tipo A/B cuando la variable de resultado es numérica. Son uno de los puntos de entrada estándar a la inferencia estadística porque conectan medias, variabilidad, incertidumbre y toma de decisiones en un solo método.

Prueba un problema similar

Cambia el ejemplo para que la media muestral sea $101$ en lugar de $102$ , manteniendo $n = 25$ y $s = 4$ . Vuelve a calcular el estadístico t y decide si la evidencia sigue siendo lo bastante fuerte al nivel del $5\%$ . Es un buen paso siguiente si quieres ver cómo cambia la conclusión cuando la media muestral se acerca al valor nulo.

¿Necesitas ayuda con un problema?

Sube tu pregunta y obtén una solución verificada, paso a paso, en segundos.

Abrir GPAI Solver →