Il coefficiente di correlazione di solito indica il coefficiente di correlazione di Pearson, scritto . Misura la direzione e la forza di una relazione lineare tra due variabili numeriche.
Se è positivo, le variabili tendono ad aumentare insieme. Se è negativo, una tende a diminuire mentre l'altra aumenta. Se è vicino a , l' di Pearson indica che c'è poco andamento lineare, non necessariamente che non esista alcuna relazione.
L' di Pearson è più utile quando i dati sono in coppie, entrambe le variabili sono numeriche e il modello che vuoi riassumere è un andamento rettilineo.
Che cosa ti dice il coefficiente di correlazione
L' di Pearson è una misura standardizzata di come due variabili variano insieme. Per un campione di dati appaiati, la formula è
Il numeratore è positivo quando le variabili tendono a muoversi nella stessa direzione ed è negativo quando tendono a muoversi in direzioni opposte. Il denominatore riscala questo movimento congiunto usando la dispersione di ciascuna variabile.
Quando l' di Pearson è definito, deve soddisfare
Se una variabile non presenta alcuna variazione, il denominatore diventa , quindi l' di Pearson non è definito.
Come interpretare valori positivi, negativi e vicini a zero
Inizia dal segno:
- : associazione lineare positiva
- : associazione lineare negativa
- : nessuna associazione lineare
Poi guarda il valore assoluto . Valori più vicini a significano che i punti restano più vicini a un andamento rettilineo. Valori più vicini a significano che il modello lineare è più debole.
Fai attenzione a etichette come "debole", "moderata" o "forte". Queste soglie dipendono dal contesto. In un campo, può essere importante. In un altro, può essere troppo piccolo per giustificare una decisione.
L'abitudine più sicura è leggere insieme a un diagramma di dispersione. Il numero è un riassunto del modello che vedi; non dovrebbe sostituire il grafico.
Esempio svolto: calcolare
Supponi che i dati appaiati siano
Per prima cosa calcola le medie:
Ora elenca gli scarti rispetto alle medie:
- Per :
- Per :
Moltiplica gli scarti appaiati e somma:
Ora calcola le due somme dei quadrati:
Quindi
Questo ti dice che in questo campione c'è una forte associazione lineare positiva. Quando aumenta, di solito aumenta anche , e i punti sarebbero abbastanza vicini a una retta crescente.
Errori comuni nell'interpretazione della correlazione
Trattare la correlazione come causalità
Una correlazione alta non dimostra che una variabile causi l'altra. Un terzo fattore può influenzarle entrambe, oppure la relazione può essere casuale nei dati osservati.
Dimenticare che l' di Pearson è lineare
L' di Pearson misura bene solo l'associazione lineare. Una relazione curva può produrre una correlazione piccola anche quando le variabili sono chiaramente collegate.
Ignorare gli outlier
Un solo punto insolito può cambiare molto . Se il diagramma di dispersione contiene un outlier, la correlazione può dare un'immagine fuorviante del modello complessivo.
Usare l' di Pearson quando il contesto non è adatto
L' di Pearson è pensato per dati numerici appaiati e associazione lineare. Se una variabile è categorica, oppure se il modello è chiaramente curvo, questo coefficiente potrebbe non rispondere alla domanda che ti interessa davvero.
Leggere troppo in un valore vicino a zero
Un valore vicino a significa "scarsa associazione lineare", non "assenza di qualsiasi relazione".
Quando si usa il coefficiente di correlazione di Pearson
L' di Pearson è comunemente usato in statistica, nelle scienze, in economia, nella ricerca sociale e nel machine learning come riassunto rapido di dati numerici appaiati. È particolarmente utile quando vuoi sapere se è presente un andamento rettilineo prima di passare a un modello come la regressione lineare.
In pratica, un diagramma di dispersione dovrebbe venire prima. Il coefficiente è un riassunto, non un sostituto dell'osservazione dei dati.
Prova un esercizio simile
Prendi un piccolo insieme di dati che già conosci, rappresenta i punti sul grafico e stima se l'andamento sembra positivo, negativo o poco chiaro prima di calcolare . Questo rapido confronto è uno dei modi più veloci per sviluppare intuizione su ciò che il coefficiente di correlazione sta davvero dicendo.
Se vuoi fare un passo in più, esplora gli stessi dati con una semplice retta di regressione lineare. Questo rende più facile vedere come correlazione e previsione siano collegate, ma non identiche.
Hai bisogno di aiuto con un problema?
Carica la tua domanda e ottieni una soluzione verificata, passo dopo passo, in pochi secondi.
Apri GPAI Solver →