La covarianza misura se due variabili tendono a stare insieme sopra o sotto le rispettive medie. Una covarianza positiva significa che le variabili di solito si muovono nello stesso verso rispetto alle loro medie. Una covarianza negativa significa che una tende a stare sopra la media quando l'altra sta sotto la media.

Per la maggior parte degli studenti, l'idea chiave è questa: il segno di solito è più utile del numero grezzo. L'entità della covarianza dipende dalle unità di entrambe le variabili, quindi da sola non fornisce una misura pulita dell'intensità della relazione.

Formula della covarianza per campioni e popolazioni

Per un campione di dati appaiati, una formula comune è

sxy=1n1i=1n(xixˉ)(yiyˉ)s_{xy} = \frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})

Qui xˉ\bar{x} e yˉ\bar{y} sono le medie campionarie. Ogni prodotto (xixˉ)(yiyˉ)(x_i-\bar{x})(y_i-\bar{y}) è positivo quando la coppia si trova dallo stesso lato rispetto a entrambe le medie, e negativo quando i due valori stanno da lati opposti.

Se stai lavorando con l'intera popolazione invece che con un campione, il denominatore è in genere NN invece di n1n-1:

Cov(X,Y)=1Ni=1N(xiμx)(yiμy)\mathrm{Cov}(X,Y) = \frac{1}{N}\sum_{i=1}^N (x_i-\mu_x)(y_i-\mu_y)

Usa la versione campionaria per dati campionari e la versione per popolazione solo quando i dati rappresentano l'intera popolazione che vuoi descrivere.

Come leggere il segno della covarianza

La covarianza si costruisce a partire dagli scarti appaiati rispetto alla media.

Se entrambi gli scarti sono positivi, il loro prodotto è positivo. Se entrambi sono negativi, anche il loro prodotto è positivo. Queste coppie fanno aumentare la covarianza perché le variabili si muovono insieme rispetto ai loro centri.

Se uno scarto è positivo e l'altro è negativo, il prodotto è negativo. Queste coppie fanno diminuire la covarianza perché le variabili si muovono in direzioni opposte.

Quindi la covarianza è davvero una media del "movimento congiunto attorno alla media".

Esempio svolto: ore di studio e punteggi del quiz

Supponiamo che un piccolo campione registri ore di studio e punteggi del quiz:

(1,70), (2,80), (3,90)(1,70),\ (2,80),\ (3,90)

Per prima cosa troviamo le medie:

xˉ=1+2+33=2\bar{x} = \frac{1+2+3}{3} = 2 yˉ=70+80+903=80\bar{y} = \frac{70+80+90}{3} = 80

Ora calcoliamo gli scarti e i loro prodotti:

  • Per (1,70)(1,70): (12)(7080)=(1)(10)=10(1-2)(70-80) = (-1)(-10) = 10
  • Per (2,80)(2,80): (22)(8080)=0(2-2)(80-80) = 0
  • Per (3,90)(3,90): (32)(9080)=(1)(10)=10(3-2)(90-80) = (1)(10) = 10

Sommiamo i prodotti:

10+0+10=2010 + 0 + 10 = 20

Poiché questa è una covarianza campionaria, dividiamo per n1=2n-1 = 2:

sxy=202=10s_{xy} = \frac{20}{2} = 10

La covarianza è positiva, quindi in questo campione le variabili si muovono insieme. Qui, più tempo di studio è associato a punteggi più alti nel quiz.

L'avvertenza importante è che 1010 non è una scala universale dell'intensità. La sua grandezza dipende dalle unità usate qui: ore per punti del punteggio. Se cambiassi la scala di misura, cambierebbe anche la covarianza, anche se il modello generale restasse simile.

Covarianza vs correlazione: la differenza chiave

Covarianza e correlazione sono strettamente collegate, ma rispondono a domande leggermente diverse.

La covarianza indica la direzione del movimento congiunto e mantiene la scala originale. La correlazione standardizza questa relazione dividendo la covarianza per le deviazioni standard, quando tali deviazioni standard sono diverse da zero:

r=sxysxsyr = \frac{s_{xy}}{s_x s_y}

Per questo la correlazione è priva di unità ed è più facile da confrontare tra insiemi di dati diversi. Il suo valore resta compreso tra 1-1 e 11, mentre la covarianza non ha un intervallo fisso.

In pratica:

  • Usa la covarianza quando ti interessa la variazione congiunta nelle unità originali o quando compare all'interno di un calcolo più ampio, come una matrice di covarianza.
  • Usa la correlazione quando vuoi un riassunto senza unità che sia più facile da confrontare tra diversi insiemi di dati.

Errori comuni con la covarianza

Considerare automaticamente forte una covarianza grande

Una covarianza di 100100 non è automaticamente "più forte" di una covarianza di 55. Le variabili potrebbero semplicemente essere misurate su scale più grandi.

Confondere le formule per campione e popolazione

Se i tuoi dati sono un campione, dividere per n1n-1 è lo standard. Se i dati rappresentano l'intera popolazione di interesse, dividere per NN è la versione per popolazione.

Pensare che covarianza zero significhi assenza totale di relazione

Una covarianza vicina a 00 indica poca co-variazione lineare attorno alle medie. Non esclude una relazione non lineare.

Se due variabili sono indipendenti e la covarianza esiste, allora la covarianza è 00. Il contrario non è sempre vero.

Interpretare la covarianza come causalità

La covarianza descrive solo come le variabili variano insieme. Non spiega perché variano insieme.

Quando si usa la covarianza

La covarianza compare in statistica, finanza, machine learning e analisi dei dati ogni volta che variabili appaiate devono essere studiate insieme.

È particolarmente comune nelle matrici di covarianza, dove ogni elemento riassume come due variabili variano congiuntamente. Questo è importante in ambiti come il rischio di portafoglio, l'analisi delle componenti principali e la modellazione multivariata.

Prova un esercizio simile

Prendi tre o quattro coppie di valori qualsiasi, calcola le due medie, poi moltiplica gli scarti appaiati prima di farne la media. Questa semplice procedura rende il segno della covarianza molto più concreto.

Se vuoi fare il passo successivo, confronta gli stessi dati con il coefficiente di correlazione e osserva come la standardizzazione delle scale cambia l'interpretazione.

Hai bisogno di aiuto con un problema?

Carica la tua domanda e ottieni una soluzione verificata, passo dopo passo, in pochi secondi.

Apri GPAI Solver →