PCA — wyjaśnienie analizy głównych składowych

Analiza głównych składowych, czyli PCA, przekształca kilka zmiennych liczbowych w mniejszy zestaw nowych zmiennych, które zachowują jak najwięcej zmienności. Jeśli szukasz odpowiedzi na pytanie „co to jest PCA”, to krótko mówiąc: metoda obraca dane do nowego układu osi, a następnie zachowuje te osie, które wyjaśniają największy rozrzut.

Te nowe osie nazywają się głównymi składowymi. W standardowym PCA pierwsza składowa przechwytuje możliwie największą wariancję, druga przechwytuje największą pozostałą wariancję, pozostając prostopadła do pierwszej, a kolejne składowe działają według tego samego schematu.

Czego PCA próbuje szukać

Wyobraź sobie chmurę punktów w przestrzeni o dużej liczbie wymiarów. PCA szuka kierunków, w których ta chmura rozciąga się najbardziej.

Jeśli większość rozrzutu występuje wzdłuż jednego lub dwóch kierunków, dane można dobrze opisać za pomocą jednej lub dwóch głównych składowych zamiast pełnego zestawu oryginalnych zmiennych. Dlatego PCA stosuje się do redukcji wymiarowości, wizualizacji, kompresji i wstępnego przetwarzania danych.

Dla danych wycentrowanych pierwsza główna składowa rozwiązuje problem

\text{maximize } \mathrm{Var}(Xw) \quad \text{subject to } \|w\| = 1,

gdzie $X$ jest wycentrowaną macierzą danych, a $w$ jest wektorem kierunku.

Warunek centrowania ma znaczenie. Bez centrowania wybrane kierunki mogą być zdominowane przez średni poziom zmiennych, a nie przez to, jak dane zmieniają się wokół tej średniej.

Jak obliczyć PCA

Standardowy schemat postępowania jest krótki:

Umieść obserwacje w wierszach, a zmienne w kolumnach.
Wycentruj każdą zmienną, odejmując jej średnią.
Jeśli zmienne mają bardzo różne jednostki i skala nie powinna dominować, dodatkowo je wystandaryzuj.
Oblicz macierz kowariancji wycentrowanych danych.
Wyznacz jej wektory własne i wartości własne.

Wektory własne wyznaczają główne kierunki. Wartości własne mówią, jaką część wariancji wyjaśnia każdy kierunek.

Możesz też spotkać PCA obliczane za pomocą rozkładu według wartości osobliwych, czyli SVD. Dla danych wycentrowanych daje to te same główne podprzestrzenie i w praktyce często jest preferowaną metodą numeryczną.

Przykład PCA w 2D

Weźmy trzy obserwacje 2D:

(1,1), \quad (2,2), \quad (3,3).

Te punkty leżą dokładnie na prostej $y=x$ , więc już spodziewamy się jednego dominującego kierunku.

Najpierw wycentruj dane, odejmując średnią $(2,2)$ :

(-1,-1), \quad (0,0), \quad (1,1).

Dla tego wycentrowanego zbioru danych macierz kowariancji jest proporcjonalna do

\begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}.

Jej dwa prostopadłe kierunki wektorów własnych to

\frac{1}{\sqrt{2}}(1,1) \quad \text{and} \quad \frac{1}{\sqrt{2}}(1,-1).

Pierwszy kierunek wskazuje wzdłuż prostej, na której dane rzeczywiście się zmieniają. Drugi wskazuje w poprzek tej prostej.

Rzutuj wycentrowane punkty na pierwszy kierunek:

(-1,-1) \mapsto -\sqrt{2}, \quad (0,0) \mapsto 0, \quad (1,1) \mapsto \sqrt{2}.

Rzutuj je na drugi kierunek:

(-1,-1) \mapsto 0, \quad (0,0) \mapsto 0, \quad (1,1) \mapsto 0.

A więc cała zmienność leży wzdłuż $\frac{1}{\sqrt{2}}(1,1)$ , a żadna wzdłuż $\frac{1}{\sqrt{2}}(1,-1)$ . W tym szczególnym przypadku jedna główna składowa zachowuje pełny wzorzec zmienności, używając jednej liczby dla każdego punktu.

To właśnie PCA w najprostszej postaci. Obraca układ współrzędnych tak, aby dopasować go do danych, a następnie sprawdza, które z obróconych współrzędnych warto zachować.

Co oznaczają główne składowe

Każda główna składowa jest kombinacją liniową oryginalnych zmiennych.

Jeśli pierwsza składowa ma postać

z_1 = 0.7x_1 + 0.7x_2,

to znaczy, że główny kierunek zmienności jest w przybliżeniu równoważną kombinacją dwóch pierwszych zmiennych. Dokładna interpretacja zależy od samych zmiennych oraz od tego, czy dane były tylko wycentrowane, czy również wystandaryzowane.

Scores to współrzędne każdej obserwacji po rzutowaniu na główne kierunki. Loadings opisują, jak silnie każda oryginalna zmienna wnosi wkład do danej składowej.

Typowe błędy w PCA

Pomijanie centrowania

Standardowe PCA zwykle stosuje się do danych wycentrowanych. Jeśli pominiesz centrowanie, wynik może bardziej odzwierciedlać średni poziom zmiennych niż zmienność, która naprawdę Cię interesuje.

Ignorowanie skali

Jeśli jedna zmienna jest mierzona w dolarach, a inna w milimetrach, zmienna o większej skali może zdominować obliczenie wariancji. Standaryzacja jest często właściwa, gdy jednostki się różnią i względna skala nie powinna decydować o wyniku.

Przekonanie, że PCA znajduje najbardziej znaczącą cechę

PCA znajduje kierunki o dużej wariancji, ale niekoniecznie kierunki o najlepszym znaczeniu przyczynowym lub najlepszym rozdzieleniu klas. Duża wariancja i duża użyteczność nie zawsze oznaczają to samo.

Traktowanie rzutów do niższego wymiaru jako bezstratnych

Zachowanie tylko kilku pierwszych składowych jest przybliżeniem. Może być bardzo dobre, ale nadal odrzuca część informacji, chyba że pozostałe składowe mają dokładnie zerową wariancję.

Kiedy PCA jest przydatne

PCA jest często używane wtedy, gdy zmienne są skorelowane i chcesz uzyskać prostszą reprezentację danych.

Typowe zastosowania obejmują:

zmniejszanie liczby cech wejściowych przed modelowaniem
wizualizację danych o wysokim wymiarze w dwóch lub trzech wymiarach
kompresję pomiarów przy zachowaniu większości wariancji
identyfikację dominujących wzorców w finansach, biologii, analizie obrazów i przetwarzaniu sygnałów

Metoda jest najbardziej użyteczna wtedy, gdy struktura oparta na wariancji stanowi sensowne podsumowanie problemu.

Spróbuj podobnego zadania

Narysuj punkty $(1,2)$ , $(2,3)$ , $(3,4)$ i $(4,5)$ . Wycentruj je, a następnie porównaj ich rozrzut wzdłuż kierunków $(1,1)$ oraz $(1,-1)$ . To krótkie ćwiczenie dobrze pokazuje, dlaczego PCA uznaje jeden kierunek za ważny, a drugi za w dużej mierze nadmiarowy.

Jeśli chcesz pójść o krok dalej, spróbuj własnej wersji z punktami, które nie leżą idealnie na jednej prostej, i porównaj, jaką część wariancji wyjaśnia pierwsza składowa, a jaką druga.

Potrzebujesz pomocy z zadaniem?

Prześlij pytanie i otrzymaj zweryfikowane rozwiązanie krok po kroku w kilka sekund.

Otwórz GPAI Solver →