PCA — Hauptkomponentenanalyse einfach erklärt

Die Hauptkomponentenanalyse, kurz PCA, verwandelt mehrere numerische Variablen in eine kleinere Menge neuer Variablen, die möglichst viel Variation erhalten. Wenn du nach „Was ist PCA?“ gesucht hast, lautet die kurze Antwort: Sie dreht die Daten auf ein neues Achsensystem und behält dann die Achsen, die die größte Streuung erklären.

Diese neuen Achsen heißen Hauptkomponenten. Bei der Standard-PCA erfasst die erste Komponente die größtmögliche Varianz, die zweite die größte verbleibende Varianz und bleibt dabei orthogonal zur ersten, und die späteren Komponenten folgen demselben Muster.

Was PCA zu finden versucht

Stell dir eine Punktwolke in einem hochdimensionalen Raum vor. PCA sucht nach den Richtungen, in denen sich diese Wolke am stärksten ausbreitet.

Wenn der größte Teil der Streuung entlang einer oder zweier Richtungen passiert, lassen sich die Daten oft gut mit einer oder zwei Hauptkomponenten zusammenfassen statt mit dem vollständigen ursprünglichen Variablensatz. Deshalb wird PCA zur Dimensionsreduktion, Visualisierung, Kompression und Vorverarbeitung verwendet.

Für zentrierte Daten löst die erste Hauptkomponente

\text{maximize } \mathrm{Var}(Xw) \quad \text{subject to } \|w\| = 1,

wobei $X$ die zentrierte Datenmatrix und $w$ ein Richtungsvektor ist.

Die Zentrierung ist wichtig. Ohne Zentrierung können die gewählten Richtungen eher vom mittleren Niveau der Variablen bestimmt werden als davon, wie die Daten um diesen Mittelwert herum variieren.

Wie man PCA berechnet

Der Standardablauf ist kurz:

Ordne Beobachtungen in Zeilen und Variablen in Spalten an.
Zentriere jede Variable, indem du ihren Mittelwert abziehst.
Wenn die Variablen sehr unterschiedliche Einheiten haben und die Skalierung nicht dominieren soll, standardisiere sie zusätzlich.
Berechne die Kovarianzmatrix der zentrierten Daten.
Bestimme ihre Eigenvektoren und Eigenwerte.

Die Eigenvektoren liefern die Hauptrichtungen. Die Eigenwerte geben an, wie viel Varianz jede Richtung erklärt.

Du wirst PCA auch mit der Singulärwertzerlegung, also SVD, berechnet sehen. Für zentrierte Daten liefert sie dieselben Hauptunterräume und ist in der Praxis oft die bevorzugte numerische Methode.

Durchgerechnetes PCA-Beispiel in 2D

Nimm drei 2D-Beobachtungen:

(1,1), \quad (2,2), \quad (3,3).

Diese Punkte liegen genau auf der Geraden $y=x$ , daher erwarten wir bereits eine dominante Richtung.

Zentriere zuerst die Daten, indem du den Mittelwert $(2,2)$ abziehst:

(-1,-1), \quad (0,0), \quad (1,1).

Für diesen zentrierten Datensatz ist die Kovarianzmatrix proportional zu

\begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}.

Ihre beiden orthogonalen Eigenvektorrichtungen sind

\frac{1}{\sqrt{2}}(1,1) \quad \text{and} \quad \frac{1}{\sqrt{2}}(1,-1).

Die erste Richtung zeigt entlang der Geraden, auf der die Daten tatsächlich variieren. Die zweite zeigt quer zu dieser Geraden.

Projiziere die zentrierten Punkte auf die erste Richtung:

(-1,-1) \mapsto -\sqrt{2}, \quad (0,0) \mapsto 0, \quad (1,1) \mapsto \sqrt{2}.

Projiziere sie auf die zweite Richtung:

(-1,-1) \mapsto 0, \quad (0,0) \mapsto 0, \quad (1,1) \mapsto 0.

Die gesamte Variation liegt also entlang von $\frac{1}{\sqrt{2}}(1,1)$ , und keine entlang von $\frac{1}{\sqrt{2}}(1,-1)$ . In diesem Spezialfall erhält eine Hauptkomponente das vollständige Variationsmuster mit nur einer Zahl pro Punkt.

Das ist PCA in ihrer einfachsten Form. Sie dreht das Koordinatensystem so, dass es zu den Daten passt, und fragt dann, welche der gedrehten Koordinaten es wert sind, behalten zu werden.

Was Hauptkomponenten bedeuten

Jede Hauptkomponente ist eine lineare Kombination der ursprünglichen Variablen.

Wenn die erste Komponente so aussieht:

z_1 = 0.7x_1 + 0.7x_2,

dann bedeutet das, dass die Hauptrichtung der Variation ungefähr eine gleich gewichtete Kombination der ersten beiden Variablen ist. Die genaue Interpretation hängt von den Variablen ab und davon, ob die Daten nur zentriert oder zusätzlich standardisiert wurden.

Die Scores sind die Koordinaten jeder Beobachtung nach der Projektion auf die Hauptrichtungen. Die Loadings beschreiben, wie stark jede ursprüngliche Variable zu einer Komponente beiträgt.

Häufige Fehler bei PCA

Zentrierung überspringen

Standard-PCA wird normalerweise auf zentrierte Daten angewendet. Wenn du die Zentrierung auslässt, kann das Ergebnis eher das durchschnittliche Niveau der Variablen widerspiegeln als die Variation, die dich eigentlich interessiert.

Skalierung ignorieren

Wenn eine Variable in Euro und eine andere in Millimetern gemessen wird, kann die Variable mit der größeren Skala die Varianzberechnung dominieren. Eine Standardisierung ist oft sinnvoll, wenn sich die Einheiten unterscheiden und die relative Skala nicht über das Ergebnis entscheiden soll.

Denken, PCA finde das inhaltlich wichtigste Merkmal

PCA findet Richtungen großer Varianz, aber nicht unbedingt Richtungen mit der besten kausalen Bedeutung oder der besten Klassentrennung. Hohe Varianz und hoher praktischer Nutzen sind nicht immer dasselbe.

Niedrigdimensionale Projektionen als verlustfrei behandeln

Wenn du nur die ersten wenigen Komponenten behältst, ist das eine Näherung. Sie kann sehr gut sein, verwirft aber trotzdem einen Teil der Information, außer wenn die übrigen Komponenten exakt Varianz null haben.

Wann PCA nützlich ist

PCA ist verbreitet, wenn Variablen korreliert sind und du eine einfachere Darstellung der Daten möchtest.

Typische Anwendungen sind:

die Anzahl der Eingangsmerkmale vor dem Modellieren zu reduzieren
hochdimensionale Daten in zwei oder drei Dimensionen zu visualisieren
Messdaten zu komprimieren und dabei den größten Teil der Varianz zu erhalten
dominante Muster in Finanzen, Biologie, Bildanalyse und Signalverarbeitung zu identifizieren

Die Methode ist besonders nützlich, wenn eine auf Varianz basierende Struktur eine sinnvolle Zusammenfassung des Problems ist.

Probiere eine ähnliche Aufgabe

Zeichne die Punkte $(1,2)$ , $(2,3)$ , $(3,4)$ und $(4,5)$ . Zentriere sie und vergleiche dann ihre Streuung entlang der Richtungen $(1,1)$ und $(1,-1)$ . Diese kleine Übung macht klar, warum PCA eine Richtung als wichtig auswählt und die andere als weitgehend redundant behandelt.

Wenn du noch einen Schritt weitergehen willst, probiere deine eigene Variante mit Punkten aus, die nicht perfekt auf einer Geraden liegen, und vergleiche, wie viel Varianz die erste Komponente erklärt und wie viel die zweite erklärt.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →