Um valor-p é um número obtido em um teste estatístico que indica quão incomum seria o seu resultado se a hipótese nula fosse verdadeira. Mais precisamente, é a probabilidade de obter um resultado pelo menos tão extremo quanto o observado, sob o modelo nulo usado pelo teste.
Isso faz do valor-p uma forma de avaliar o quanto os dados vão contra a hipótese nula. Ele não informa a probabilidade de a hipótese nula ser verdadeira, nem diz se o efeito é grande ou importante na prática.
O que um valor-p realmente responde
Em testes de hipótese, você começa com uma hipótese nula, geralmente escrita como . Essa é a afirmação de referência que o teste considera verdadeira para fazer o cálculo.
O valor-p responde à seguinte pergunta:
Se o valor-p for pequeno, os dados observados seriam relativamente incomuns sob . Se o valor-p não for pequeno, os dados não são especialmente incomuns sob esse modelo.
Essa conclusão depende do teste, das hipóteses assumidas por trás dele e do que conta como "pelo menos tão extremo". Um teste bicaudal e um teste unicaudal podem produzir valores-p diferentes a partir dos mesmos dados.
Exemplo de valor-p: interpretando
Suponha que uma escola compare um novo método de ensino com o método atual. A hipótese nula é que o novo método não faz diferença na média das notas.
Depois de aplicar o teste estatístico escolhido, o resultado é .
Aqui está a interpretação correta:
Se a hipótese nula fosse verdadeira, e se as suposições do teste fossem razoáveis, dados tão distantes de "nenhuma diferença" ou ainda mais distantes ocorreriam cerca de das vezes.
Isso é evidência contra a hipótese nula. Se os pesquisadores escolheram um nível de significância de antes da análise, eles chamariam o resultado de estatisticamente significativo porque .
Mas note o que isso não quer dizer:
- Não quer dizer que há de chance de a hipótese nula ser verdadeira.
- Não quer dizer que o novo método de ensino tenha um efeito grande.
- Não quer dizer que o resultado será replicado com probabilidade de .
Essas são perguntas diferentes.
Por que valores-p são mal interpretados
Um valor-p pequeno significa que os dados seriam difíceis de explicar se a hipótese nula estivesse exatamente correta. Isso pode ser uma evidência útil, mas não é a história toda.
Um efeito muito pequeno pode produzir um valor-p pequeno quando o tamanho da amostra é grande o suficiente. Por outro lado, um efeito real importante pode não alcançar um valor-p pequeno quando a amostra é pequena demais ou os dados têm muito ruído.
Por isso, o valor-p deve ser lido junto com o tamanho do efeito, os intervalos de confiança e o desenho do estudo.
Erros comuns com valor-p
Erro 1: tratar o valor-p como
O valor-p é calculado sob a suposição de que é verdadeira. Ele não é a probabilidade de ser verdadeira depois de observar os dados.
Erro 2: igualar significância estatística a importância
Significância estatística só quer dizer que o resultado ultrapassou um limite escolhido em um teste específico. Isso não informa se o efeito importa na prática.
Erro 3: interpretar um valor-p alto como prova de ausência de efeito
Um valor-p alto não prova a hipótese nula. Ele apenas significa que os dados não são uma evidência forte contra ela naquela análise. O estudo ainda pode ter baixo poder estatístico, muito ruído ou ser mal ajustado à pergunta.
Erro 4: tratar e como opostos
Esses valores são muito próximos. Um ponto de corte rígido pode ser útil para decisões, mas a evidência subjacente geralmente muda de forma gradual, não em um salto dramático por causa de uma casa decimal.
Quando valores-p são úteis
Valores-p são usados em testes formais de hipótese em muitas áreas, incluindo experimentos, pesquisas, testes A/B, pesquisa clínica e controle de qualidade.
Eles são mais úteis quando a hipótese nula está claramente definida, o teste é escolhido de forma adequada e as suposições por trás do modelo são pelo menos razoavelmente defensáveis.
Se essas condições forem fracas, o valor-p pode parecer preciso enquanto a conclusão é frágil.
Como interpretar um valor-p rapidamente
Quando você vir um valor-p em um artigo, relatório ou saída de software, faça estas perguntas nesta ordem:
- Qual é exatamente a hipótese nula?
- Qual teste produziu esse valor-p?
- As suposições do teste eram razoáveis?
- Qual é o tamanho do efeito e qual é o intervalo de confiança?
- O ponto de corte de significância foi escolhido antes da análise?
Essa lista curta evita a maioria dos erros de interpretação.
Tente uma interpretação parecida
Pegue qualquer resultado apresentado como "estatisticamente significativo" e reescreva em linguagem simples usando este padrão: "Se a hipótese nula fosse verdadeira, resultados tão extremos quanto este ou mais extremos aconteceriam cerca de das vezes." Depois verifique se o relatório também informa um tamanho de efeito ou um intervalo de confiança. Essa é a forma mais rápida de sair da obsessão por ponto de corte e chegar a uma interpretação de fato.
Precisa de ajuda com um problema?
Envie sua pergunta e receba uma solução verificada, passo a passo, em segundos.
Abrir GPAI Solver →