Principal component analysis, atau PCA, mengubah beberapa variabel numerik menjadi himpunan variabel baru yang lebih sedikit sambil mempertahankan variasi sebanyak mungkin. Jika Anda mencari "apa itu PCA", jawaban singkatnya adalah: PCA memutar data ke sekumpulan sumbu baru, lalu mempertahankan sumbu yang menjelaskan sebaran terbesar.
Sumbu-sumbu baru itu disebut komponen utama. Dalam PCA standar, komponen pertama menangkap varians terbesar yang mungkin, komponen kedua menangkap varians terbesar berikutnya sambil tetap ortogonal terhadap komponen pertama, dan komponen-komponen berikutnya mengikuti pola yang sama.
Apa yang Dicari PCA
Bayangkan sekumpulan titik dalam ruang berdimensi tinggi. PCA mencari arah-arah tempat kumpulan titik itu menyebar paling besar.
Jika sebagian besar sebaran terjadi sepanjang satu atau dua arah, data dapat diringkas dengan baik menggunakan satu atau dua komponen utama alih-alih seluruh himpunan variabel asli. Itulah sebabnya PCA digunakan untuk reduksi dimensi, visualisasi, kompresi, dan prapemrosesan.
Untuk data yang sudah dipusatkan, komponen utama pertama menyelesaikan
dengan adalah matriks data yang sudah dipusatkan dan adalah vektor arah.
Kondisi centering ini penting. Tanpa centering, arah yang dipilih bisa lebih dipengaruhi oleh tingkat rata-rata variabel daripada oleh bagaimana data bervariasi di sekitar rata-rata tersebut.
Cara Menghitung PCA
Alur kerja standarnya singkat:
- Letakkan observasi pada baris dan variabel pada kolom.
- Pusatkan setiap variabel dengan mengurangkan rata-ratanya.
- Jika variabel menggunakan satuan yang sangat berbeda dan skala tidak seharusnya mendominasi, lakukan standardisasi juga.
- Hitung matriks kovarians dari data yang sudah dipusatkan.
- Cari eigenvektor dan eigenvalue-nya.
Eigenvektor memberikan arah utama. Eigenvalue memberi tahu seberapa besar varians yang dijelaskan oleh setiap arah.
Anda juga akan melihat PCA dihitung dengan singular value decomposition, atau SVD. Untuk data yang sudah dipusatkan, metode itu menghasilkan subruang utama yang sama dan sering menjadi metode numerik yang lebih disukai dalam praktik.
Contoh PCA dalam 2D
Ambil tiga observasi 2D:
Titik-titik ini terletak tepat pada garis , jadi kita sudah menduga ada satu arah yang dominan.
Pertama, pusatkan data dengan mengurangkan rata-rata :
Untuk himpunan data yang sudah dipusatkan ini, matriks kovariansnya sebanding dengan
Dua arah eigenvektor ortogonalnya adalah
Arah pertama menunjuk sepanjang garis tempat data benar-benar bervariasi. Arah kedua menunjuk melintasi garis tersebut.
Proyeksikan titik-titik yang sudah dipusatkan ke arah pertama:
Proyeksikan ke arah kedua:
Jadi seluruh variasi berada sepanjang , dan tidak ada variasi sepanjang . Dalam kasus khusus ini, satu komponen utama mempertahankan seluruh pola variasi hanya dengan satu angka per titik.
Itulah PCA dalam bentuk paling sederhana. PCA memutar sistem koordinat agar sejajar dengan data, lalu menanyakan koordinat hasil rotasi mana yang layak dipertahankan.
Apa Arti Komponen Utama
Setiap komponen utama adalah kombinasi linear dari variabel-variabel asli.
Jika komponen pertama berbentuk
itu berarti arah utama variasi kira-kira merupakan kombinasi berbobot sama dari dua variabel pertama. Interpretasi tepatnya bergantung pada variabelnya dan pada apakah data hanya dipusatkan atau juga distandardisasi.
Score adalah koordinat setiap observasi setelah diproyeksikan ke arah utama. Loading menjelaskan seberapa kuat setiap variabel asli berkontribusi pada suatu komponen.
Kesalahan Umum dalam PCA
Melewatkan Centering
PCA standar biasanya diterapkan pada data yang sudah dipusatkan. Jika Anda melewatkan centering, hasilnya bisa lebih mencerminkan tingkat rata-rata variabel daripada variasi yang sebenarnya ingin Anda analisis.
Mengabaikan Skala
Jika satu variabel diukur dalam dolar dan variabel lain dalam milimeter, variabel dengan skala lebih besar dapat mendominasi perhitungan varians. Standardisasi sering tepat digunakan ketika satuan berbeda dan skala relatif seharusnya tidak menentukan hasil.
Mengira PCA Menemukan Fitur yang Paling Bermakna
PCA mencari arah dengan varians besar, bukan selalu arah dengan makna kausal terbaik atau pemisahan kelas terbaik. Varians tinggi dan kegunaan tinggi tidak selalu sama.
Menganggap Proyeksi Berdimensi Rendah Tanpa Kehilangan Informasi
Mempertahankan hanya beberapa komponen pertama adalah sebuah pendekatan. Hasilnya bisa sangat baik, tetapi tetap membuang sebagian informasi kecuali komponen yang tersisa memiliki varians tepat nol.
Kapan PCA Berguna
PCA umum digunakan ketika variabel-variabel saling berkorelasi dan Anda menginginkan representasi data yang lebih sederhana.
Penggunaan yang umum meliputi:
- mengurangi jumlah fitur masukan sebelum pemodelan
- memvisualisasikan data berdimensi tinggi dalam dua atau tiga dimensi
- mengompresi pengukuran sambil mempertahankan sebagian besar varians
- mengidentifikasi pola dominan dalam keuangan, biologi, analisis citra, dan pemrosesan sinyal
Metode ini paling berguna ketika struktur berbasis varians merupakan ringkasan yang masuk akal untuk masalah yang sedang dihadapi.
Coba Soal Serupa
Plot titik-titik , , , dan . Pusatkan titik-titik itu, lalu bandingkan sebarannya sepanjang arah dan . Latihan kecil itu memperjelas mengapa PCA memilih satu arah sebagai arah penting dan menganggap arah lainnya sebagian besar redundan.
Jika Anda ingin melangkah sedikit lebih jauh, coba versi Anda sendiri dengan titik-titik yang tidak terletak sempurna pada satu garis dan bandingkan seberapa besar varians yang dijelaskan oleh komponen pertama dengan yang dijelaskan oleh komponen kedua.
Butuh bantuan mengerjakan soal?
Unggah pertanyaanmu dan dapatkan solusi terverifikasi langkah demi langkah dalam hitungan detik.
Buka GPAI Solver →