PCA — Analisi delle componenti principali spiegata

L’analisi delle componenti principali, o PCA, trasforma diverse variabili numeriche in un insieme più piccolo di nuove variabili che preservano quanta più variabilità possibile. Se hai cercato "cos’è la PCA", la risposta breve è: ruota i dati su un nuovo insieme di assi, poi mantiene gli assi che spiegano la maggiore dispersione.

Questi nuovi assi si chiamano componenti principali. Nella PCA standard, la prima componente cattura la massima varianza possibile, la seconda cattura la massima varianza rimanente restando ortogonale alla prima, e le componenti successive seguono lo stesso schema.

Che cosa cerca di trovare la PCA

Immagina una nuvola di punti in uno spazio ad alta dimensione. La PCA cerca le direzioni lungo cui quella nuvola si disperde di più.

Se gran parte della dispersione avviene lungo una o due direzioni, i dati possono essere riassunti bene con una o due componenti principali invece dell’intero insieme originale di variabili. Per questo la PCA si usa per la riduzione della dimensionalità, la visualizzazione, la compressione e il preprocessing.

Per dati centrati, la prima componente principale risolve

\text{maximize } \mathrm{Var}(Xw) \quad \text{subject to } \|w\| = 1,

dove $X$ è la matrice dei dati centrati e $w$ è un vettore direzione.

La condizione di centratura è importante. Senza centratura, le direzioni scelte possono essere determinate dal livello medio delle variabili invece che da come i dati variano attorno a quella media.

Come si calcola la PCA

Il flusso di lavoro standard è breve:

Metti le osservazioni nelle righe e le variabili nelle colonne.
Centra ogni variabile sottraendo la sua media.
Se le variabili usano unità molto diverse e la scala non deve dominare, standardizzale anch’esse.
Calcola la matrice di covarianza dei dati centrati.
Trova i suoi autovettori e autovalori.

Gli autovettori forniscono le direzioni principali. Gli autovalori indicano quanta varianza spiega ciascuna direzione.

Puoi anche vedere la PCA calcolata con la decomposizione ai valori singolari, o SVD. Per dati centrati, fornisce gli stessi sottospazi principali ed è spesso il metodo numerico preferito nella pratica.

Esempio svolto di PCA in 2D

Prendi tre osservazioni 2D:

(1,1), \quad (2,2), \quad (3,3).

Questi punti giacciono esattamente sulla retta $y=x$ , quindi ci aspettiamo già una direzione dominante.

Per prima cosa centra i dati sottraendo la media $(2,2)$ :

(-1,-1), \quad (0,0), \quad (1,1).

Per questo dataset centrato, la matrice di covarianza è proporzionale a

\begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}.

Le sue due direzioni autovettoriali ortogonali sono

\frac{1}{\sqrt{2}}(1,1) \quad \text{and} \quad \frac{1}{\sqrt{2}}(1,-1).

La prima direzione punta lungo la retta in cui i dati variano davvero. La seconda punta trasversalmente a quella retta.

Proietta i punti centrati sulla prima direzione:

(-1,-1) \mapsto -\sqrt{2}, \quad (0,0) \mapsto 0, \quad (1,1) \mapsto \sqrt{2}.

Proiettali sulla seconda direzione:

(-1,-1) \mapsto 0, \quad (0,0) \mapsto 0, \quad (1,1) \mapsto 0.

Quindi tutta la variazione è lungo $\frac{1}{\sqrt{2}}(1,1)$ , e non ce n’è lungo $\frac{1}{\sqrt{2}}(1,-1)$ . In questo caso speciale, una componente principale conserva l’intero schema di variazione con un solo numero per punto.

Questa è la PCA nella sua forma più semplice. Ruota il sistema di coordinate per allinearlo ai dati, poi chiede quali coordinate ruotate valga la pena mantenere.

Che cosa significano le componenti principali

Ogni componente principale è una combinazione lineare delle variabili originali.

Se la prima componente ha la forma

z_1 = 0.7x_1 + 0.7x_2,

significa che la direzione principale della variazione è approssimativamente una combinazione con pesi uguali delle prime due variabili. L’interpretazione esatta dipende dalle variabili e dal fatto che i dati siano stati solo centrati oppure anche standardizzati.

Gli score sono le coordinate di ogni osservazione dopo la proiezione sulle direzioni principali. I loadings descrivono quanto fortemente ogni variabile originale contribuisce a una componente.

Errori comuni nella PCA

Saltare la centratura

La PCA standard si applica di solito a dati centrati. Se salti la centratura, il risultato può riflettere il livello medio delle variabili più della variazione che ti interessa davvero.

Ignorare la scala

Se una variabile è misurata in euro e un’altra in millimetri, la variabile con scala maggiore può dominare il calcolo della varianza. La standardizzazione è spesso appropriata quando le unità differiscono e la scala relativa non dovrebbe determinare la risposta.

Pensare che la PCA trovi la caratteristica più significativa

La PCA trova direzioni di grande varianza, non necessariamente direzioni con il miglior significato causale o la migliore separazione tra classi. Varianza elevata e utilità elevata non sono sempre la stessa cosa.

Trattare le proiezioni a bassa dimensione come prive di perdita

Mantenere solo le prime componenti è un’approssimazione. Può essere eccellente, ma scarta comunque una parte dell’informazione, a meno che le componenti rimanenti non abbiano varianza esattamente zero.

Quando la PCA è utile

La PCA è comune quando le variabili sono correlate e vuoi una rappresentazione più semplice dei dati.

Gli usi tipici includono:

ridurre il numero di caratteristiche di input prima della modellazione
visualizzare dati ad alta dimensione in due o tre dimensioni
comprimere misure mantenendo la maggior parte della varianza
identificare pattern dominanti in finanza, biologia, analisi delle immagini ed elaborazione dei segnali

Il metodo è più utile quando una struttura basata sulla varianza è un riassunto ragionevole del problema.

Prova un problema simile

Rappresenta i punti $(1,2)$ , $(2,3)$ , $(3,4)$ e $(4,5)$ . Centrali, poi confronta la loro dispersione lungo le direzioni $(1,1)$ e $(1,-1)$ . Questo piccolo esercizio chiarisce perché la PCA sceglie una direzione come importante e considera l’altra in gran parte ridondante.

Se vuoi fare un passo in più, prova una tua versione con punti che non stanno perfettamente su una retta e confronta quanta varianza spiega la prima componente rispetto alla seconda.

Hai bisogno di aiuto con un problema?

Carica la tua domanda e ottieni una soluzione verificata, passo dopo passo, in pochi secondi.

Apri GPAI Solver →