Valor-p — o que significa e como interpretar

Um valor-p é um número obtido em um teste estatístico que indica quão incomum seria o seu resultado se a hipótese nula fosse verdadeira. Mais precisamente, é a probabilidade de obter um resultado pelo menos tão extremo quanto o observado, sob o modelo nulo usado pelo teste.

Isso faz do valor-p uma forma de avaliar o quanto os dados vão contra a hipótese nula. Ele não informa a probabilidade de a hipótese nula ser verdadeira, nem diz se o efeito é grande ou importante na prática.

O que um valor-p realmente responde

Em testes de hipótese, você começa com uma hipótese nula, geralmente escrita como $H_0$ . Essa é a afirmação de referência que o teste considera verdadeira para fazer o cálculo.

O valor-p responde à seguinte pergunta:

\text{Se } H_0 \text{ fosse verdadeira, quão incomuns seriam dados tão extremos?}

Se o valor-p for pequeno, os dados observados seriam relativamente incomuns sob $H_0$ . Se o valor-p não for pequeno, os dados não são especialmente incomuns sob esse modelo.

Essa conclusão depende do teste, das hipóteses assumidas por trás dele e do que conta como "pelo menos tão extremo". Um teste bicaudal e um teste unicaudal podem produzir valores-p diferentes a partir dos mesmos dados.

Exemplo de valor-p: interpretando $p = 0.03$

Suponha que uma escola compare um novo método de ensino com o método atual. A hipótese nula é que o novo método não faz diferença na média das notas.

Depois de aplicar o teste estatístico escolhido, o resultado é $p = 0.03$ .

Aqui está a interpretação correta:

Se a hipótese nula fosse verdadeira, e se as suposições do teste fossem razoáveis, dados tão distantes de "nenhuma diferença" ou ainda mais distantes ocorreriam cerca de $3\%$ das vezes.

Isso é evidência contra a hipótese nula. Se os pesquisadores escolheram um nível de significância de $\alpha = 0.05$ antes da análise, eles chamariam o resultado de estatisticamente significativo porque $0.03 < 0.05$ .

Mas note o que isso não quer dizer:

Não quer dizer que há $3\%$ de chance de a hipótese nula ser verdadeira.
Não quer dizer que o novo método de ensino tenha um efeito grande.
Não quer dizer que o resultado será replicado com probabilidade de $97\%$ .

Essas são perguntas diferentes.

Por que valores-p são mal interpretados

Um valor-p pequeno significa que os dados seriam difíceis de explicar se a hipótese nula estivesse exatamente correta. Isso pode ser uma evidência útil, mas não é a história toda.

Um efeito muito pequeno pode produzir um valor-p pequeno quando o tamanho da amostra é grande o suficiente. Por outro lado, um efeito real importante pode não alcançar um valor-p pequeno quando a amostra é pequena demais ou os dados têm muito ruído.

Por isso, o valor-p deve ser lido junto com o tamanho do efeito, os intervalos de confiança e o desenho do estudo.

Erros comuns com valor-p

Erro 1: tratar o valor-p como $P(H_0 \mid \text{dados})$

O valor-p é calculado sob a suposição de que $H_0$ é verdadeira. Ele não é a probabilidade de $H_0$ ser verdadeira depois de observar os dados.

Erro 2: igualar significância estatística a importância

Significância estatística só quer dizer que o resultado ultrapassou um limite escolhido em um teste específico. Isso não informa se o efeito importa na prática.

Erro 3: interpretar um valor-p alto como prova de ausência de efeito

Um valor-p alto não prova a hipótese nula. Ele apenas significa que os dados não são uma evidência forte contra ela naquela análise. O estudo ainda pode ter baixo poder estatístico, muito ruído ou ser mal ajustado à pergunta.

Erro 4: tratar $0.049$ e $0.051$ como opostos

Esses valores são muito próximos. Um ponto de corte rígido pode ser útil para decisões, mas a evidência subjacente geralmente muda de forma gradual, não em um salto dramático por causa de uma casa decimal.

Quando valores-p são úteis

Valores-p são usados em testes formais de hipótese em muitas áreas, incluindo experimentos, pesquisas, testes A/B, pesquisa clínica e controle de qualidade.

Eles são mais úteis quando a hipótese nula está claramente definida, o teste é escolhido de forma adequada e as suposições por trás do modelo são pelo menos razoavelmente defensáveis.

Se essas condições forem fracas, o valor-p pode parecer preciso enquanto a conclusão é frágil.

Como interpretar um valor-p rapidamente

Quando você vir um valor-p em um artigo, relatório ou saída de software, faça estas perguntas nesta ordem:

Qual é exatamente a hipótese nula?
Qual teste produziu esse valor-p?
As suposições do teste eram razoáveis?
Qual é o tamanho do efeito e qual é o intervalo de confiança?
O ponto de corte de significância foi escolhido antes da análise?

Essa lista curta evita a maioria dos erros de interpretação.

Tente uma interpretação parecida

Pegue qualquer resultado apresentado como "estatisticamente significativo" e reescreva em linguagem simples usando este padrão: "Se a hipótese nula fosse verdadeira, resultados tão extremos quanto este ou mais extremos aconteceriam cerca de $p \times 100\%$ das vezes." Depois verifique se o relatório também informa um tamanho de efeito ou um intervalo de confiança. Essa é a forma mais rápida de sair da obsessão por ponto de corte e chegar a uma interpretação de fato.

Precisa de ajuda com um problema?

Envie sua pergunta e receba uma solução verificada, passo a passo, em segundos.

Abrir GPAI Solver →