Valor p — qué significa y cómo interpretarlo

Un valor p es un número obtenido en una prueba estadística que indica qué tan inusual sería tu resultado si la hipótesis nula fuera verdadera. Más precisamente, es la probabilidad de obtener un resultado al menos tan extremo como el observado, bajo el modelo nulo usado por la prueba.

Esto hace que el valor p sea una forma de evaluar cuánto contradicen los datos a la hipótesis nula. No te dice la probabilidad de que la hipótesis nula sea verdadera, ni te dice si el efecto es grande o importante en la práctica.

Qué responde realmente un valor p

En las pruebas de hipótesis, se empieza con una hipótesis nula, que suele escribirse como $H_0$ . Esta es la afirmación de referencia que la prueba considera verdadera para hacer el cálculo.

El valor p responde a esta pregunta:

\text{If } H_0 \text{ were true, how unusual would data this extreme be?}

Si el valor p es pequeño, los datos observados serían relativamente inusuales bajo $H_0$ . Si el valor p no es pequeño, los datos no son especialmente inusuales bajo ese modelo.

Esa conclusión depende de la prueba, de los supuestos que hay detrás y de qué se considera "al menos tan extremo". Una prueba bilateral y una prueba unilateral pueden dar valores p distintos con los mismos datos.

Ejemplo de valor p: interpretar $p = 0.03$

Supón que una escuela compara un nuevo método de enseñanza con el actual. La hipótesis nula es que el nuevo método no produce ninguna diferencia en las puntuaciones medias de los exámenes.

Después de aplicar la prueba estadística elegida, el resultado es $p = 0.03$ .

Esta es la interpretación correcta:

Si la hipótesis nula fuera verdadera, y si los supuestos de la prueba fueran razonables, unos datos tan alejados de "ninguna diferencia" o más alejados aparecerían aproximadamente el $3\%$ de las veces.

Eso es evidencia en contra de la hipótesis nula. Si los investigadores eligieron un nivel de significación de $\alpha = 0.05$ antes del análisis, dirían que el resultado es estadísticamente significativo porque $0.03 < 0.05$ .

Pero fíjate en lo que esto no significa:

No significa que haya un $3\%$ de probabilidad de que la hipótesis nula sea verdadera.
No significa que el nuevo método de enseñanza tenga un efecto grande.
No significa que el resultado vaya a replicarse con una probabilidad del $97\%$ .

Esas son preguntas distintas.

Por qué se malinterpretan los valores p

Un valor p pequeño significa que los datos serían difíciles de explicar si la hipótesis nula fuera exactamente correcta. Eso puede ser una evidencia útil, pero no es toda la historia.

Un efecto muy pequeño puede producir un valor p pequeño cuando el tamaño de la muestra es lo bastante grande. Por otro lado, un efecto real importante puede no alcanzar un valor p pequeño cuando la muestra es demasiado pequeña o los datos tienen mucho ruido.

Por eso, un valor p debe leerse junto con el tamaño del efecto, los intervalos de confianza y el diseño del estudio.

Errores comunes con el valor p

Error 1: Tratar el valor p como $P(H_0 \mid \text{data})$

El valor p se calcula bajo el supuesto de que $H_0$ es verdadera. No es la probabilidad de que $H_0$ sea verdadera después de ver los datos.

Error 2: Igualar significación estadística con importancia

La significación estadística solo significa que el resultado superó un umbral elegido en una prueba concreta. No te dice si el efecto importa en la práctica.

Error 3: Interpretar un valor p grande como prueba de ausencia de efecto

Un valor p grande no demuestra la hipótesis nula. Solo significa que los datos no son una evidencia fuerte en su contra en ese análisis. El estudio aún puede tener poca potencia, mucho ruido o estar mal ajustado a la pregunta.

Error 4: Tratar $0.049$ y $0.051$ como opuestos

Esos valores están muy cerca. Un corte rígido puede ser útil para tomar decisiones, pero la evidencia subyacente normalmente cambia de forma gradual, no con un salto dramático en una cifra decimal.

Cuándo son útiles los valores p

Los valores p se usan en pruebas formales de hipótesis en muchos campos, incluidos experimentos, encuestas, pruebas A/B, investigación clínica y control de calidad.

Son más útiles cuando la hipótesis nula está claramente definida, la prueba se elige de forma adecuada y los supuestos del modelo son al menos razonablemente defendibles.

Si esas condiciones son débiles, el valor p puede parecer preciso mientras que la conclusión es frágil.

Cómo interpretar rápidamente un valor p

Cuando veas un valor p en un artículo, informe o salida de software, hazte estas preguntas en este orden:

¿Cuál es exactamente la hipótesis nula?
¿Qué prueba produjo este valor p?
¿Eran razonables los supuestos de la prueba?
¿Cuál es el tamaño del efecto y el intervalo de confianza?
¿Se eligió el umbral de significación antes del análisis?

Esa breve lista de comprobación evita la mayoría de los errores de interpretación.

Prueba una interpretación similar

Toma cualquier resultado presentado como "estadísticamente significativo" y reescríbelo en lenguaje claro usando este patrón: "Si la hipótesis nula fuera verdadera, resultados así de extremos o más extremos ocurrirían aproximadamente el $p \times 100\%$ de las veces". Después comprueba si el informe también da un tamaño del efecto o un intervalo de confianza. Esa es la forma más rápida de pasar de perseguir umbrales a una interpretación real.

¿Necesitas ayuda con un problema?

Sube tu pregunta y obtén una solución verificada, paso a paso, en segundos.

Abrir GPAI Solver →