Un diagramma a scatola e baffi mostra a colpo d’occhio il centro, la dispersione e la possibile asimmetria di un insieme di dati. Si costruisce a partire dal riassunto a cinque numeri: minimo, primo quartile Q1Q_1, mediana, terzo quartile Q3Q_3 e massimo. Se nella tua classe o nel tuo software si usa la regola di 1.5×IQR1.5 \times IQR, i baffi possono fermarsi ai valori non anomali più estremi invece che al minimo e al massimo assoluti.

La scatola va da Q1Q_1 a Q3Q_3, quindi contiene il 50%50\% centrale dei dati. La linea all’interno della scatola è la mediana. I baffi mostrano fin dove si estendono i dati oltre quella metà centrale.

Cosa mostra un diagramma a scatola e baffi

Un box plot ti aiuta a rispondere rapidamente a tre domande:

  • Dov’è il centro? Guarda la mediana.
  • Quanto è dispersa la metà centrale? Guarda la larghezza della scatola.
  • Le code sono bilanciate? Confronta i due baffi.

La larghezza della scatola è l’intervallo interquartile, cioè IQR=Q3Q1IQR = Q_3 - Q_1. Un IQRIQR più grande significa che la metà centrale dei dati è più dispersa. Se un baffo è molto più lungo dell’altro, i dati possono essere asimmetrici in quella direzione.

Molti box plot usano anche la regola di 1.5×IQR1.5 \times IQR per indicare possibili valori anomali. In quella versione, i baffi si fermano ai valori non anomali più estremi. Per questo motivo, due box plot corretti dello stesso insieme di dati possono apparire leggermente diversi se usano regole diverse per i baffi.

Esempio svolto: dai dati al box plot

Usa l’insieme di dati ordinato

3, 5, 6, 7, 8, 9, 12, 153,\ 5,\ 6,\ 7,\ 8,\ 9,\ 12,\ 15

Ci sono 88 valori, quindi la mediana è la media dei due valori centrali:

median=7+82=7.5\text{median} = \frac{7 + 8}{2} = 7.5

Poiché c’è un numero pari di dati, dividi l’elenco in due metà uguali. La metà inferiore è 3,5,6,73, 5, 6, 7, quindi

Q1=5+62=5.5Q_1 = \frac{5 + 6}{2} = 5.5

La metà superiore è 8,9,12,158, 9, 12, 15, quindi

Q3=9+122=10.5Q_3 = \frac{9 + 12}{2} = 10.5

Questo dà il riassunto a cinque numeri:

min=3,Q1=5.5,median=7.5,Q3=10.5,max=15\text{min} = 3,\quad Q_1 = 5.5,\quad \text{median} = 7.5,\quad Q_3 = 10.5,\quad \text{max} = 15

Ora calcola l’intervallo interquartile:

IQR=Q3Q1=10.55.5=5IQR = Q_3 - Q_1 = 10.5 - 5.5 = 5

Se usi la comune regola dei valori anomali di 1.5×IQR1.5 \times IQR, i limiti sono

Q11.5(IQR)=5.57.5=2Q_1 - 1.5(IQR) = 5.5 - 7.5 = -2

e

Q3+1.5(IQR)=10.5+7.5=18Q_3 + 1.5(IQR) = 10.5 + 7.5 = 18

Tutti i valori dei dati sono compresi tra 2-2 e 1818, quindi non ci sono possibili valori anomali secondo questa regola. Per questo insieme di dati, la scatola andrebbe da 5.55.5 a 10.510.5, la linea della mediana sarebbe a 7.57.5 e i baffi arriverebbero a 33 e 1515.

Come leggere rapidamente un box plot

Inizia dalla linea della mediana. Ti dice dove si trova il centro dei dati.

Poi confronta la larghezza della scatola e la lunghezza dei baffi. La scatola mostra dove si trova il 50%50\% centrale dei valori, mentre i baffi mostrano quanto si estendono le code oltre quella regione.

Infine, cerca eventuali asimmetrie. Se la mediana non è al centro della scatola, oppure un baffo è molto più lungo dell’altro, la distribuzione potrebbe non essere bilanciata attorno al centro.

Errori comuni con i diagrammi a scatola e baffi

Un errore comune è leggere i bordi della scatola come minimo e massimo. Di solito rappresentano Q1Q_1 e Q3Q_3, non gli estremi dell’intero insieme di dati.

Un altro errore è supporre che ogni box plot usi la stessa regola per i baffi. Alcuni baffi si estendono fino al minimo e al massimo. Altri si fermano ai valori non anomali più estremi.

È anche facile dimenticare che i quartili dipendono dai dati ordinati. Se i valori non vengono prima messi in ordine, i quartili e la mediana saranno sbagliati.

Quando i box plot sono utili

I diagrammi a scatola e baffi sono utili quando vuoi un riassunto rapido di una distribuzione invece di un elenco completo di valori. Sono comuni nei corsi di statistica, nei riepiloghi di esperimenti, nel controllo qualità e nei confronti tra gruppi.

Sono particolarmente utili quando contano i valori anomali o l’asimmetria, perché la mediana e i quartili sono di solito più stabili della sola media.

Prova con un insieme di dati simile

Prendi un piccolo insieme di dati già ordinato, scrivi il suo riassunto a cinque numeri e disegna la scatola prima di preoccuparti dei valori anomali. Se vuoi controllare quartili e mediana in un problema di statistica simile, prova la tua versione in un solver dopo aver impostato da solo l’elenco ordinato.

Hai bisogno di aiuto con un problema?

Carica la tua domanda e ottieni una soluzione verificata, passo dopo passo, in pochi secondi.

Apri GPAI Solver →