Coefficiente di correlazione — r di Pearson e interpretazione

Il coefficiente di correlazione di solito indica il coefficiente di correlazione di Pearson, scritto $r$ . Misura la direzione e la forza di una relazione lineare tra due variabili numeriche.

Se $r$ è positivo, le variabili tendono ad aumentare insieme. Se $r$ è negativo, una tende a diminuire mentre l'altra aumenta. Se $r$ è vicino a $0$ , l' $r$ di Pearson indica che c'è poco andamento lineare, non necessariamente che non esista alcuna relazione.

L' $r$ di Pearson è più utile quando i dati sono in coppie, entrambe le variabili sono numeriche e il modello che vuoi riassumere è un andamento rettilineo.

Che cosa ti dice il coefficiente di correlazione

L' $r$ di Pearson è una misura standardizzata di come due variabili variano insieme. Per un campione di dati appaiati, la formula è

r = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \sum_{i=1}^n (y_i-\bar{y})^2}}

Il numeratore è positivo quando le variabili tendono a muoversi nella stessa direzione ed è negativo quando tendono a muoversi in direzioni opposte. Il denominatore riscala questo movimento congiunto usando la dispersione di ciascuna variabile.

Quando l' $r$ di Pearson è definito, deve soddisfare

-1 \le r \le 1

Se una variabile non presenta alcuna variazione, il denominatore diventa $0$ , quindi l' $r$ di Pearson non è definito.

Come interpretare valori positivi, negativi e vicini a zero

Inizia dal segno:

$r > 0$ : associazione lineare positiva
$r < 0$ : associazione lineare negativa
$r = 0$ : nessuna associazione lineare

Poi guarda il valore assoluto $|r|$ . Valori più vicini a $1$ significano che i punti restano più vicini a un andamento rettilineo. Valori più vicini a $0$ significano che il modello lineare è più debole.

Fai attenzione a etichette come "debole", "moderata" o "forte". Queste soglie dipendono dal contesto. In un campo, $r = 0.3$ può essere importante. In un altro, può essere troppo piccolo per giustificare una decisione.

L'abitudine più sicura è leggere $r$ insieme a un diagramma di dispersione. Il numero è un riassunto del modello che vedi; non dovrebbe sostituire il grafico.

Esempio svolto: calcolare $r = 0.9$

Supponi che i dati appaiati siano

(1,2),\ (2,3),\ (3,5),\ (4,4),\ (5,6)

Per prima cosa calcola le medie:

\bar{x} = \frac{1+2+3+4+5}{5} = 3

\bar{y} = \frac{2+3+5+4+6}{5} = 4

Ora elenca gli scarti rispetto alle medie:

Per $x$ : $-2, -1, 0, 1, 2$
Per $y$ : $-2, -1, 1, 0, 2$

Moltiplica gli scarti appaiati e somma:

(-2)(-2) + (-1)(-1) + (0)(1) + (1)(0) + (2)(2) = 4 + 1 + 0 + 0 + 4 = 9

Ora calcola le due somme dei quadrati:

\sum (x_i-\bar{x})^2 = 4+1+0+1+4 = 10

\sum (y_i-\bar{y})^2 = 4+1+1+0+4 = 10

Quindi

r = \frac{9}{\sqrt{10 \cdot 10}} = \frac{9}{10} = 0.9

Questo ti dice che in questo campione c'è una forte associazione lineare positiva. Quando $x$ aumenta, di solito aumenta anche $y$ , e i punti sarebbero abbastanza vicini a una retta crescente.

Errori comuni nell'interpretazione della correlazione

Trattare la correlazione come causalità

Una correlazione alta non dimostra che una variabile causi l'altra. Un terzo fattore può influenzarle entrambe, oppure la relazione può essere casuale nei dati osservati.

Dimenticare che l' $r$ di Pearson è lineare

L' $r$ di Pearson misura bene solo l'associazione lineare. Una relazione curva può produrre una correlazione piccola anche quando le variabili sono chiaramente collegate.

Ignorare gli outlier

Un solo punto insolito può cambiare molto $r$ . Se il diagramma di dispersione contiene un outlier, la correlazione può dare un'immagine fuorviante del modello complessivo.

Usare l' $r$ di Pearson quando il contesto non è adatto

L' $r$ di Pearson è pensato per dati numerici appaiati e associazione lineare. Se una variabile è categorica, oppure se il modello è chiaramente curvo, questo coefficiente potrebbe non rispondere alla domanda che ti interessa davvero.

Leggere troppo in un valore vicino a zero

Un valore vicino a $0$ significa "scarsa associazione lineare", non "assenza di qualsiasi relazione".

Quando si usa il coefficiente di correlazione di Pearson

L' $r$ di Pearson è comunemente usato in statistica, nelle scienze, in economia, nella ricerca sociale e nel machine learning come riassunto rapido di dati numerici appaiati. È particolarmente utile quando vuoi sapere se è presente un andamento rettilineo prima di passare a un modello come la regressione lineare.

In pratica, un diagramma di dispersione dovrebbe venire prima. Il coefficiente è un riassunto, non un sostituto dell'osservazione dei dati.

Prova un esercizio simile

Prendi un piccolo insieme di dati che già conosci, rappresenta i punti sul grafico e stima se l'andamento sembra positivo, negativo o poco chiaro prima di calcolare $r$ . Questo rapido confronto è uno dei modi più veloci per sviluppare intuizione su ciò che il coefficiente di correlazione sta davvero dicendo.

Se vuoi fare un passo in più, esplora gli stessi dati con una semplice retta di regressione lineare. Questo rende più facile vedere come correlazione e previsione siano collegate, ma non identiche.

Domande frequenti

Che cosa misura il coefficiente di correlazione?: Il coefficiente di correlazione di Pearson $r$ misura la direzione e la forza di una relazione lineare tra due variabili numeriche.
Che cosa significa una correlazione pari a $0$?: Significa che l'$r$ di Pearson non rileva un'associazione lineare. Non vuol dire automaticamente che non esista alcuna relazione.
La correlazione implica causalità?: No. Anche una correlazione elevata non dimostra da sola che una variabile causi l'altra.

Hai bisogno di aiuto con un problema?

Carica la tua domanda e ottieni una soluzione verificata, passo dopo passo, in pochi secondi.

Apri GPAI Solver →