PCA — Temel Bileşen Analizi Açıklaması

Temel bileşen analizi, yani PCA, birden fazla sayısal değişkeni, mümkün olduğunca çok varyasyonu koruyan daha küçük bir yeni değişken kümesine dönüştürür. “PCA nedir?” diye arattıysanız, kısa cevap şudur: veriyi yeni eksen takımına döndürür, sonra en fazla yayılımı açıklayan eksenleri tutar.

Bu yeni eksenlere temel bileşenler denir. Standart PCA’da birinci bileşen mümkün olan en büyük varyansı yakalar, ikinci bileşen birinciye dik kalırken kalan en büyük varyansı yakalar ve sonraki bileşenler de aynı düzeni sürdürür.

PCA Ne Bulmaya Çalışır?

Yüksek boyutlu bir uzayda bir nokta bulutu hayal edin. PCA, bu bulutun en çok hangi yönlerde yayıldığını arar.

Yayılımın büyük kısmı bir ya da iki yönde gerçekleşiyorsa, veri tam özgün değişken kümesi yerine bir ya da iki temel bileşenle iyi özetlenebilir. Bu yüzden PCA boyut indirgeme, görselleştirme, sıkıştırma ve ön işleme için kullanılır.

Merkezlenmiş veri için birinci temel bileşen şu problemi çözer:

\text{maximize } \mathrm{Var}(Xw) \quad \text{subject to } \|w\| = 1,

burada $X$ merkezlenmiş veri matrisi, $w$ ise bir yön vektörüdür.

Merkezleme koşulu önemlidir. Merkezleme yapılmazsa, seçilen yönler verinin ortalama etrafında nasıl değiştiğinden çok değişkenlerin ortalama düzeyi tarafından belirlenebilir.

PCA Nasıl Hesaplanır?

Standart iş akışı kısadır:

Gözlemleri satırlara, değişkenleri sütunlara yerleştirin.
Her değişkenin ortalamasını çıkararak merkezleyin.
Değişkenler çok farklı birimler kullanıyorsa ve ölçeğin baskın olmasını istemiyorsanız, ayrıca standartlaştırın.
Merkezlenmiş verinin kovaryans matrisini hesaplayın.
Bu matrisin özvektörlerini ve özdeğerlerini bulun.

Özvektörler temel yönleri verir. Özdeğerler ise her yönün ne kadar varyans açıkladığını söyler.

PCA’nın tekil değer ayrışımı, yani SVD, ile hesaplandığını da göreceksiniz. Merkezlenmiş veri için bu yöntem aynı temel altuzayları verir ve uygulamada çoğu zaman tercih edilen sayısal yöntemdir.

2B’de Çözümlü PCA Örneği

Üç tane 2B gözlem alın:

(1,1), \quad (2,2), \quad (3,3).

Bu noktalar tam olarak $y=x$ doğrusu üzerinde yer alır, dolayısıyla zaten baskın tek bir yön bekleriz.

Önce ortalama $(2,2)$ değerini çıkararak veriyi merkezleyin:

(-1,-1), \quad (0,0), \quad (1,1).

Bu merkezlenmiş veri kümesi için kovaryans matrisi şu matrisle orantılıdır:

\begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}.

Bunun birbirine dik iki özvektör yönü şunlardır:

\frac{1}{\sqrt{2}}(1,1) \quad \text{and} \quad \frac{1}{\sqrt{2}}(1,-1).

Birinci yön, verinin gerçekten değiştiği doğru boyunca uzanır. İkinci yön ise bu doğrunun enine uzanır.

Merkezlenmiş noktaları birinci yöne yansıtın:

(-1,-1) \mapsto -\sqrt{2}, \quad (0,0) \mapsto 0, \quad (1,1) \mapsto \sqrt{2}.

Onları ikinci yöne yansıtın:

(-1,-1) \mapsto 0, \quad (0,0) \mapsto 0, \quad (1,1) \mapsto 0.

Yani tüm varyasyon $\frac{1}{\sqrt{2}}(1,1)$ boyunca gerçekleşir ve $\frac{1}{\sqrt{2}}(1,-1)$ boyunca hiç gerçekleşmez. Bu özel durumda, tek bir temel bileşen her nokta için tek bir sayıyla varyasyon örüntüsünün tamamını korur.

PCA en basit haliyle budur. Koordinat sistemini veriye hizalanacak şekilde döndürür, sonra da döndürülmüş koordinatlardan hangilerini tutmaya değer olduğunu sorar.

Temel Bileşenler Ne Anlama Gelir?

Her temel bileşen, özgün değişkenlerin doğrusal bir birleşimidir.

Birinci bileşen şöyle görünüyorsa

z_1 = 0.7x_1 + 0.7x_2,

bu, ana varyasyon yönünün ilk iki değişkenin yaklaşık eşit ağırlıklı bir birleşimi olduğu anlamına gelir. Kesin yorum, değişkenlere ve verinin yalnızca merkezlenip merkezlenmediğine ya da ayrıca standartlaştırılıp standartlaştırılmadığına bağlıdır.

Skorlar, her gözlemin temel yönlere yansıtıldıktan sonraki koordinatlarıdır. Yükler ise her özgün değişkenin bir bileşene ne kadar güçlü katkı yaptığını açıklar.

PCA’da Yaygın Hatalar

Merkezlemeyi Atlamak

Standart PCA genellikle merkezlenmiş veriye uygulanır. Merkezlemeyi atlarsanız, sonuç gerçekten ilgilendiğiniz varyasyondan çok değişkenlerin ortalama düzeyini yansıtabilir.

Ölçeği Göz Ardı Etmek

Bir değişken dolar, diğeri milimetre cinsinden ölçülüyorsa, daha büyük ölçekli değişken varyans hesabına baskın çıkabilir. Birimler farklıysa ve göreli ölçeğin cevabı belirlemesini istemiyorsanız, standartlaştırma çoğu zaman uygundur.

PCA’nın En Anlamlı Özelliği Bulduğunu Sanmak

PCA büyük varyans yönlerini bulur; en iyi nedensel anlama ya da en iyi sınıf ayrımına sahip yönleri mutlaka bulmaz. Yüksek varyans ile yüksek kullanışlılık her zaman aynı şey değildir.

Düşük Boyutlu Yansıtımları Kayıpsız Sanmak

Yalnızca ilk birkaç bileşeni tutmak bir yaklaşımdır. Bu yaklaşım çok iyi olabilir, ama kalan bileşenlerin varyansı tam olarak sıfır değilse yine de bir miktar bilgi atılır.

PCA Ne Zaman Kullanışlıdır?

PCA, değişkenler birbiriyle ilişkiliyken ve verinin daha basit bir gösterimini istediğinizde yaygındır.

Tipik kullanım alanları şunlardır:

modellemeden önce giriş özelliklerinin sayısını azaltmak
yüksek boyutlu veriyi iki ya da üç boyutta görselleştirmek
varyansın büyük kısmını koruyarak ölçümleri sıkıştırmak
finans, biyoloji, görüntü analizi ve sinyal işlemede baskın örüntüleri belirlemek

Bu yöntem, varyansa dayalı yapının problemi makul biçimde özetlediği durumlarda en kullanışlıdır.

Benzer Bir Problem Deneyin

$(1,2)$ , $(2,3)$ , $(3,4)$ ve $(4,5)$ noktalarını çizin. Bunları merkezleyin, sonra $(1,1)$ ve $(1,-1)$ yönlerindeki yayılımlarını karşılaştırın. Bu küçük alıştırma, PCA’nın neden bir yönü önemli seçip diğerini büyük ölçüde gereksiz gördüğünü açıkça gösterir.

Bir adım daha ileri gitmek isterseniz, noktaların tam olarak bir doğru üzerinde olmadığı kendi örneğinizi deneyin ve birinci bileşenin açıkladığı varyans ile ikinci bileşenin açıkladığı varyansı karşılaştırın.

Bir soruyla yardıma mı ihtiyacın var?

Sorunuzu yükleyin ve saniyeler içinde doğrulanmış adım adım çözüm alın.

GPAI Solver Aç →