PCA — Penjelasan Principal Component Analysis

Principal component analysis, atau PCA, mengubah beberapa variabel numerik menjadi himpunan variabel baru yang lebih sedikit sambil mempertahankan variasi sebanyak mungkin. Jika Anda mencari "apa itu PCA", jawaban singkatnya adalah: PCA memutar data ke sekumpulan sumbu baru, lalu mempertahankan sumbu yang menjelaskan sebaran terbesar.

Sumbu-sumbu baru itu disebut komponen utama. Dalam PCA standar, komponen pertama menangkap varians terbesar yang mungkin, komponen kedua menangkap varians terbesar berikutnya sambil tetap ortogonal terhadap komponen pertama, dan komponen-komponen berikutnya mengikuti pola yang sama.

Apa yang Dicari PCA

Bayangkan sekumpulan titik dalam ruang berdimensi tinggi. PCA mencari arah-arah tempat kumpulan titik itu menyebar paling besar.

Jika sebagian besar sebaran terjadi sepanjang satu atau dua arah, data dapat diringkas dengan baik menggunakan satu atau dua komponen utama alih-alih seluruh himpunan variabel asli. Itulah sebabnya PCA digunakan untuk reduksi dimensi, visualisasi, kompresi, dan prapemrosesan.

Untuk data yang sudah dipusatkan, komponen utama pertama menyelesaikan

\text{maximize } \mathrm{Var}(Xw) \quad \text{subject to } \|w\| = 1,

dengan $X$ adalah matriks data yang sudah dipusatkan dan $w$ adalah vektor arah.

Kondisi centering ini penting. Tanpa centering, arah yang dipilih bisa lebih dipengaruhi oleh tingkat rata-rata variabel daripada oleh bagaimana data bervariasi di sekitar rata-rata tersebut.

Cara Menghitung PCA

Alur kerja standarnya singkat:

Letakkan observasi pada baris dan variabel pada kolom.
Pusatkan setiap variabel dengan mengurangkan rata-ratanya.
Jika variabel menggunakan satuan yang sangat berbeda dan skala tidak seharusnya mendominasi, lakukan standardisasi juga.
Hitung matriks kovarians dari data yang sudah dipusatkan.
Cari eigenvektor dan eigenvalue-nya.

Eigenvektor memberikan arah utama. Eigenvalue memberi tahu seberapa besar varians yang dijelaskan oleh setiap arah.

Anda juga akan melihat PCA dihitung dengan singular value decomposition, atau SVD. Untuk data yang sudah dipusatkan, metode itu menghasilkan subruang utama yang sama dan sering menjadi metode numerik yang lebih disukai dalam praktik.

Contoh PCA dalam 2D

Ambil tiga observasi 2D:

(1,1), \quad (2,2), \quad (3,3).

Titik-titik ini terletak tepat pada garis $y=x$ , jadi kita sudah menduga ada satu arah yang dominan.

Pertama, pusatkan data dengan mengurangkan rata-rata $(2,2)$ :

(-1,-1), \quad (0,0), \quad (1,1).

Untuk himpunan data yang sudah dipusatkan ini, matriks kovariansnya sebanding dengan

\begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}.

Dua arah eigenvektor ortogonalnya adalah

\frac{1}{\sqrt{2}}(1,1) \quad \text{and} \quad \frac{1}{\sqrt{2}}(1,-1).

Arah pertama menunjuk sepanjang garis tempat data benar-benar bervariasi. Arah kedua menunjuk melintasi garis tersebut.

Proyeksikan titik-titik yang sudah dipusatkan ke arah pertama:

(-1,-1) \mapsto -\sqrt{2}, \quad (0,0) \mapsto 0, \quad (1,1) \mapsto \sqrt{2}.

Proyeksikan ke arah kedua:

(-1,-1) \mapsto 0, \quad (0,0) \mapsto 0, \quad (1,1) \mapsto 0.

Jadi seluruh variasi berada sepanjang $\frac{1}{\sqrt{2}}(1,1)$ , dan tidak ada variasi sepanjang $\frac{1}{\sqrt{2}}(1,-1)$ . Dalam kasus khusus ini, satu komponen utama mempertahankan seluruh pola variasi hanya dengan satu angka per titik.

Itulah PCA dalam bentuk paling sederhana. PCA memutar sistem koordinat agar sejajar dengan data, lalu menanyakan koordinat hasil rotasi mana yang layak dipertahankan.

Apa Arti Komponen Utama

Setiap komponen utama adalah kombinasi linear dari variabel-variabel asli.

Jika komponen pertama berbentuk

z_1 = 0.7x_1 + 0.7x_2,

itu berarti arah utama variasi kira-kira merupakan kombinasi berbobot sama dari dua variabel pertama. Interpretasi tepatnya bergantung pada variabelnya dan pada apakah data hanya dipusatkan atau juga distandardisasi.

Score adalah koordinat setiap observasi setelah diproyeksikan ke arah utama. Loading menjelaskan seberapa kuat setiap variabel asli berkontribusi pada suatu komponen.

Kesalahan Umum dalam PCA

Melewatkan Centering

PCA standar biasanya diterapkan pada data yang sudah dipusatkan. Jika Anda melewatkan centering, hasilnya bisa lebih mencerminkan tingkat rata-rata variabel daripada variasi yang sebenarnya ingin Anda analisis.

Mengabaikan Skala

Jika satu variabel diukur dalam dolar dan variabel lain dalam milimeter, variabel dengan skala lebih besar dapat mendominasi perhitungan varians. Standardisasi sering tepat digunakan ketika satuan berbeda dan skala relatif seharusnya tidak menentukan hasil.

Mengira PCA Menemukan Fitur yang Paling Bermakna

PCA mencari arah dengan varians besar, bukan selalu arah dengan makna kausal terbaik atau pemisahan kelas terbaik. Varians tinggi dan kegunaan tinggi tidak selalu sama.

Menganggap Proyeksi Berdimensi Rendah Tanpa Kehilangan Informasi

Mempertahankan hanya beberapa komponen pertama adalah sebuah pendekatan. Hasilnya bisa sangat baik, tetapi tetap membuang sebagian informasi kecuali komponen yang tersisa memiliki varians tepat nol.

Kapan PCA Berguna

PCA umum digunakan ketika variabel-variabel saling berkorelasi dan Anda menginginkan representasi data yang lebih sederhana.

Penggunaan yang umum meliputi:

mengurangi jumlah fitur masukan sebelum pemodelan
memvisualisasikan data berdimensi tinggi dalam dua atau tiga dimensi
mengompresi pengukuran sambil mempertahankan sebagian besar varians
mengidentifikasi pola dominan dalam keuangan, biologi, analisis citra, dan pemrosesan sinyal

Metode ini paling berguna ketika struktur berbasis varians merupakan ringkasan yang masuk akal untuk masalah yang sedang dihadapi.

Coba Soal Serupa

Plot titik-titik $(1,2)$ , $(2,3)$ , $(3,4)$ , dan $(4,5)$ . Pusatkan titik-titik itu, lalu bandingkan sebarannya sepanjang arah $(1,1)$ dan $(1,-1)$ . Latihan kecil itu memperjelas mengapa PCA memilih satu arah sebagai arah penting dan menganggap arah lainnya sebagian besar redundan.

Jika Anda ingin melangkah sedikit lebih jauh, coba versi Anda sendiri dengan titik-titik yang tidak terletak sempurna pada satu garis dan bandingkan seberapa besar varians yang dijelaskan oleh komponen pertama dengan yang dijelaskan oleh komponen kedua.

Butuh bantuan mengerjakan soal?

Unggah pertanyaanmu dan dapatkan solusi terverifikasi langkah demi langkah dalam hitungan detik.

Buka GPAI Solver →