ANOVA — Explicación del análisis de varianza

ANOVA, abreviatura de análisis de varianza, prueba si el resultado promedio difiere entre varios grupos. En un ANOVA de una vía, se compara la variación entre las medias de los grupos con la variación dentro de los grupos, lo que produce el estadístico $F$ .

Suele ser la herramienta adecuada cuando tienes una variable de agrupación categórica, una respuesta cuantitativa y quieres una sola prueba global en lugar de hacer muchas pruebas $t$ por separado. Si la variación entre grupos es grande en relación con la variación dentro de los grupos, eso es evidencia de que no todas las medias poblacionales son iguales.

Para un ANOVA clásico de una vía, el estadístico de prueba es

F = \frac{MS_B}{MS_W}

donde $MS_B$ es el cuadrado medio entre grupos y $MS_W$ es el cuadrado medio dentro de los grupos. Un valor de $F$ más grande sugiere que las medias de los grupos están más separadas de lo que cabría esperar solo por el ruido habitual dentro de los grupos.

Qué prueba ANOVA

La hipótesis nula habitual para un ANOVA de una vía es

H_0: \mu_1 = \mu_2 = \cdots = \mu_k

La alternativa no es “todas las medias son diferentes”. Es más débil: al menos una media de grupo difiere de al menos otra media de grupo.

Ese punto importa porque ANOVA es una prueba global. Un resultado significativo dice que hay evidencia de alguna diferencia en algún lugar, pero no identifica qué grupos difieren. Para eso normalmente hacen falta comparaciones posteriores.

Por qué ANOVA usa la varianza para comparar medias

El nombre puede sonar al revés al principio. Si ANOVA trata sobre medias, ¿por qué usa varianza?

Porque la varianza da una forma clara de medir dos tipos de dispersión:

La dispersión de las medias de los grupos alrededor de la media global.
La dispersión de las observaciones individuales alrededor de las medias de sus propios grupos.

Si el primer tipo de dispersión es mucho mayor que el segundo, los grupos parecen más separados de lo que normalmente produciría la fluctuación ordinaria dentro de los grupos.

Cuándo es apropiado un ANOVA de una vía

El ANOVA de una vía se usa cuando un factor categórico divide las observaciones en grupos y quieres comparar la media de una respuesta cuantitativa entre esos grupos.

Algunos ejemplos son comparar la puntuación media de exámenes entre métodos de enseñanza, el rendimiento medio de cultivos entre fertilizantes o el tiempo de reacción medio entre condiciones de tratamiento.

Para el ANOVA clásico de una vía, los supuestos principales son:

Las observaciones son independientes.
La respuesta se mide en una escala cuantitativa.
Las varianzas de los grupos son razonablemente similares.
El modelo no es claramente incompatible con la forma de los datos, especialmente en muestras pequeñas.

ANOVA puede seguir siendo razonablemente robusto en muchos casos, especialmente con grupos balanceados y tamaños de muestra moderados, pero eso depende del diseño. Si los datos están emparejados, repetidos en los mismos sujetos o tienen varianzas muy desiguales, el ANOVA ordinario de una vía puede no ser la herramienta adecuada.

Ejemplo de ANOVA de una vía

Supón que un profesor quiere comparar tres métodos de estudio usando puntuaciones de un cuestionario:

Método A: $72$ , $74$ , $76$
Método B: $78$ , $80$ , $82$
Método C: $84$ , $86$ , $88$

Las medias de los grupos son

\bar{x}_A = 74, \qquad \bar{x}_B = 80, \qquad \bar{x}_C = 86

La media global de las $9$ puntuaciones es

\bar{x} = 80

Ahora separamos la variación en dos partes.

Paso 1: Variación entre grupos

Cada grupo tiene $3$ observaciones, así que la suma de cuadrados entre grupos es

SS_B = 3(74-80)^2 + 3(80-80)^2 + 3(86-80)^2

SS_B = 3(36) + 0 + 3(36) = 216

Con $k=3$ grupos, los grados de libertad entre grupos son $k-1=2$ , así que

MS_B = \frac{SS_B}{k-1} = \frac{216}{2} = 108

Paso 2: Variación dentro de los grupos

Dentro de cada grupo, las puntuaciones están solo a $2$ puntos de la media del grupo a cada lado:

SS_W = (4+0+4) + (4+0+4) + (4+0+4) = 24

Con $N=9$ observaciones totales, los grados de libertad dentro de los grupos son $N-k=6$ , así que

MS_W = \frac{SS_W}{N-k} = \frac{24}{6} = 4

Paso 3: Calcular el estadístico $F$

Ahora calculamos

F = \frac{MS_B}{MS_W} = \frac{108}{4} = 27

Un valor de $F$ tan grande significa que las medias de los grupos están muy separadas en comparación con la variación dentro de los grupos. Bajo los supuestos habituales del ANOVA de una vía, eso es evidencia fuerte contra la hipótesis nula de que las tres medias poblacionales son iguales.

La interpretación práctica es simple: las diferencias entre los tres métodos de estudio son demasiado grandes como para descartarlas solo como dispersión ordinaria dentro de los grupos.

Lo que ANOVA no te dice

ANOVA no te dice qué par específico de grupos difiere. Después de un resultado global significativo, normalmente necesitas comparaciones post hoc o contrastes planificados.

Tampoco te dice que el efecto sea importante en un sentido práctico. Una diferencia detectable estadísticamente puede seguir siendo demasiado pequeña como para importar en la situación real.

Si el estudio no fue aleatorizado, ANOVA tampoco demuestra que la variable de agrupación causó la diferencia. Solo prueba si las medias de los grupos parecen diferentes en los datos que recopilaste.

Errores comunes con ANOVA

Un error común es pensar que ANOVA es principalmente una prueba de si las varianzas de los grupos son iguales. En su uso estándar, ANOVA compara medias. La varianza aparece porque es el mecanismo que se usa para medir señal frente a ruido.

Otro error es hacer muchas pruebas $t$ por separado en lugar de un solo ANOVA global cuando intervienen varios grupos. Eso puede inflar el riesgo de falsos positivos, a menos que las comparaciones se ajusten con cuidado.

Un tercer error es detenerse después de un ANOVA significativo y afirmar que ya se sabe exactamente qué grupo ganó. La prueba global no responde eso por sí sola.

Dónde se usa ANOVA

ANOVA es común en experimentos, pruebas de productos, educación, biología, agricultura y ciencias sociales. Es útil siempre que necesites una prueba defendible para diferencias de medias entre múltiples grupos.

Es especialmente útil cuando la pregunta real es comparativa: ¿estos tratamientos, métodos o condiciones producen resultados promedio mediblemente diferentes?

Prueba tu propia versión

Toma el mismo ejemplo y cambia el Método B a $79$ , $80$ , $81$ . Vuelve a calcular $SS_W$ , $MS_W$ y el estadístico final $F$ . Ese único cambio hace visible la intuición central: a medida que crece el ruido dentro de los grupos, la evidencia de una diferencia real entre medias se debilita.

¿Necesitas ayuda con un problema?

Sube tu pregunta y obtén una solución verificada, paso a paso, en segundos.

Abrir GPAI Solver →