Valore p — significato e come interpretarlo

Un valore p è un numero ottenuto da un test statistico che indica quanto sarebbe insolito il tuo risultato se l'ipotesi nulla fosse vera. Più precisamente, è la probabilità di ottenere un risultato almeno altrettanto estremo di quello osservato, sotto il modello nullo usato dal test.

Questo rende il valore p un modo per valutare quanto i dati contrastino l'ipotesi nulla. Non indica la probabilità che l'ipotesi nulla sia vera e non dice se l'effetto sia grande o importante nella pratica.

A cosa risponde davvero un valore p

Nel test delle ipotesi, si parte da un'ipotesi nulla, spesso indicata con $H_0$ . È l'affermazione di base che il test considera vera per eseguire il calcolo.

Il valore p risponde a questa domanda:

\text{If } H_0 \text{ were true, how unusual would data this extreme be?}

Se il valore p è piccolo, i dati osservati sarebbero relativamente insoliti sotto $H_0$ . Se il valore p non è piccolo, i dati non sono particolarmente insoliti sotto quel modello.

Questa conclusione dipende dal test, dalle ipotesi su cui si basa e da cosa si intende per "almeno altrettanto estremo". Un test bilaterale e un test unilaterale possono dare valori p diversi a partire dagli stessi dati.

Esempio di valore p: interpretare $p = 0.03$

Supponiamo che una scuola confronti un nuovo metodo di insegnamento con quello attuale. L'ipotesi nulla è che il nuovo metodo non produca alcuna differenza nel punteggio medio dei test.

Dopo aver eseguito il test statistico scelto, il risultato è $p = 0.03$ .

Ecco l'interpretazione corretta:

Se l'ipotesi nulla fosse vera, e se le ipotesi del test fossero ragionevoli, dati così lontani da "nessuna differenza" o ancora più lontani si verificherebbero circa nel $3\%$ dei casi.

Questa è un'evidenza contro l'ipotesi nulla. Se i ricercatori avessero scelto un livello di significatività di $\alpha = 0.05$ prima dell'analisi, definirebbero il risultato statisticamente significativo perché $0.03 < 0.05$ .

Ma attenzione a ciò che questo non significa:

Non significa che ci sia una probabilità del $3\%$ che l'ipotesi nulla sia vera.
Non significa che il nuovo metodo di insegnamento abbia un grande effetto.
Non significa che il risultato si replicherà con una probabilità del $97\%$ .

Queste sono domande diverse.

Perché i valori p vengono fraintesi

Un valore p piccolo significa che i dati sarebbero difficili da spiegare se l'ipotesi nulla fosse esattamente corretta. Può essere un'evidenza utile, ma non racconta tutta la storia.

Un effetto molto piccolo può produrre un valore p piccolo se la dimensione del campione è abbastanza grande. Al contrario, un effetto reale importante può non portare a un valore p piccolo se il campione è troppo ridotto o i dati sono rumorosi.

Per questo il valore p va letto insieme alla dimensione dell'effetto, agli intervalli di confidenza e al disegno dello studio.

Errori comuni sul valore p

Errore 1: trattare il valore p come $P(H_0 \mid \text{data})$

Il valore p viene calcolato assumendo che $H_0$ sia vera. Non è la probabilità che $H_0$ sia vera dopo aver osservato i dati.

Errore 2: confondere la significatività statistica con l'importanza pratica

La significatività statistica significa solo che il risultato ha superato una soglia scelta in un test specifico. Non dice se l'effetto abbia importanza nella pratica.

Errore 3: leggere un valore p grande come prova di assenza di effetto

Un valore p grande non dimostra l'ipotesi nulla. Significa solo che, in quell'analisi, i dati non forniscono un'evidenza forte contro di essa. Lo studio potrebbe comunque avere poca potenza, dati rumorosi o essere poco adatto alla domanda di ricerca.

Errore 4: trattare $0.049$ e $0.051$ come opposti

Questi valori sono molto vicini. Una soglia rigida può essere utile per prendere decisioni, ma l'evidenza sottostante di solito cambia in modo graduale, non con un salto netto per una sola cifra decimale.

Quando i valori p sono utili

I valori p vengono usati nei test formali di ipotesi in molti campi, tra cui esperimenti, sondaggi, test A/B, ricerca clinica e controllo qualità.

Sono più utili quando l'ipotesi nulla è definita chiaramente, il test è scelto in modo appropriato e le ipotesi del modello sono almeno ragionevolmente difendibili.

Se queste condizioni sono deboli, il valore p può sembrare preciso mentre la conclusione è fragile.

Come interpretare rapidamente un valore p

Quando vedi un valore p in un articolo, in un report o nell'output di un software, poniti queste domande in ordine:

Qual è esattamente l'ipotesi nulla?
Quale test ha prodotto questo valore p?
Le ipotesi del test erano ragionevoli?
Quali sono la dimensione dell'effetto e l'intervallo di confidenza?
La soglia di significatività è stata scelta prima dell'analisi?

Questa breve checklist evita la maggior parte degli errori di interpretazione.

Prova un'interpretazione simile

Prendi qualsiasi risultato riportato come "statisticamente significativo" e riscrivilo in linguaggio semplice usando questo schema: "Se l'ipotesi nulla fosse vera, risultati così estremi o più estremi si verificherebbero circa nel $p \times 100\%$ dei casi." Poi controlla se il report fornisce anche una dimensione dell'effetto o un intervallo di confidenza. È il modo più rapido per passare dalla caccia alla soglia a una vera interpretazione.

Hai bisogno di aiuto con un problema?

Carica la tua domanda e ottieni una soluzione verificata, passo dopo passo, in pochi secondi.

Apri GPAI Solver →