Η ανάλυση κύριων συνιστωσών, ή PCA, μετατρέπει πολλές αριθμητικές μεταβλητές σε ένα μικρότερο σύνολο νέων μεταβλητών που διατηρούν όσο το δυνατόν περισσότερη διακύμανση. Αν έψαξες «τι είναι το PCA», η σύντομη απάντηση είναι: περιστρέφει τα δεδομένα σε ένα νέο σύνολο αξόνων και μετά κρατά τους άξονες που εξηγούν τη μεγαλύτερη διασπορά.
Αυτοί οι νέοι άξονες λέγονται κύριες συνιστώσες. Στο τυπικό PCA, η πρώτη συνιστώσα συλλαμβάνει τη μέγιστη δυνατή διακύμανση, η δεύτερη συλλαμβάνει τη μεγαλύτερη εναπομένουσα διακύμανση ενώ παραμένει ορθογώνια στην πρώτη, και οι επόμενες συνιστώσες ακολουθούν το ίδιο μοτίβο.
Τι Προσπαθεί Να Βρει Το PCA
Φαντάσου ένα νέφος σημείων σε έναν χώρο υψηλής διάστασης. Το PCA αναζητά τις κατευθύνσεις στις οποίες αυτό το νέφος απλώνεται περισσότερο.
Αν το μεγαλύτερο μέρος της διασποράς συμβαίνει κατά μήκος μίας ή δύο κατευθύνσεων, τα δεδομένα μπορούν να συνοψιστούν καλά με μία ή δύο κύριες συνιστώσες αντί για το πλήρες αρχικό σύνολο μεταβλητών. Γι’ αυτό το PCA χρησιμοποιείται για μείωση διαστάσεων, οπτικοποίηση, συμπίεση και προεπεξεργασία.
Για κεντραρισμένα δεδομένα, η πρώτη κύρια συνιστώσα λύνει το
όπου είναι ο κεντραρισμένος πίνακας δεδομένων και είναι ένα διάνυσμα κατεύθυνσης.
Η συνθήκη κεντραρίσματος είναι σημαντική. Χωρίς κεντράρισμα, οι επιλεγμένες κατευθύνσεις μπορεί να καθοριστούν από το μέσο επίπεδο των μεταβλητών αντί από το πώς μεταβάλλονται τα δεδομένα γύρω από αυτόν τον μέσο όρο.
Πώς Υπολογίζεται Το PCA
Η τυπική διαδικασία είναι σύντομη:
- Βάλε τις παρατηρήσεις σε γραμμές και τις μεταβλητές σε στήλες.
- Κέντραρε κάθε μεταβλητή αφαιρώντας τον μέσο όρο της.
- Αν οι μεταβλητές χρησιμοποιούν πολύ διαφορετικές μονάδες και η κλίμακα δεν πρέπει να κυριαρχεί, τυποποίησέ τες επίσης.
- Υπολόγισε τον πίνακα συνδιακύμανσης των κεντραρισμένων δεδομένων.
- Βρες τα ιδιοδιανύσματα και τις ιδιοτιμές του.
Τα ιδιοδιανύσματα δίνουν τις κύριες κατευθύνσεις. Οι ιδιοτιμές δείχνουν πόση διακύμανση εξηγεί κάθε κατεύθυνση.
Θα δεις επίσης το PCA να υπολογίζεται με την ανάλυση ιδιαζουσών τιμών, ή SVD. Για κεντραρισμένα δεδομένα, αυτό δίνει τους ίδιους κύριους υπόχωρους και συχνά είναι η προτιμώμενη αριθμητική μέθοδος στην πράξη.
Λυμένο Παράδειγμα PCA Σε 2D
Πάρε τρεις δισδιάστατες παρατηρήσεις:
Αυτά τα σημεία βρίσκονται ακριβώς πάνω στην ευθεία , οπότε ήδη περιμένουμε μία κυρίαρχη κατεύθυνση.
Πρώτα κέντραρε τα δεδομένα αφαιρώντας τον μέσο όρο :
Για αυτό το κεντραρισμένο σύνολο δεδομένων, ο πίνακας συνδιακύμανσης είναι ανάλογος του
Οι δύο ορθογώνιες κατευθύνσεις ιδιοδιανυσμάτων του είναι
Η πρώτη κατεύθυνση δείχνει κατά μήκος της ευθείας όπου πράγματι μεταβάλλονται τα δεδομένα. Η δεύτερη δείχνει κάθετα σε αυτή την ευθεία.
Πρόβαλε τα κεντραρισμένα σημεία πάνω στην πρώτη κατεύθυνση:
Πρόβαλέ τα πάνω στη δεύτερη κατεύθυνση:
Άρα όλη η διακύμανση βρίσκεται κατά μήκος του , και καμία κατά μήκος του . Σε αυτή την ειδική περίπτωση, μία κύρια συνιστώσα διατηρεί όλο το μοτίβο της διακύμανσης με έναν αριθμό για κάθε σημείο.
Αυτό είναι το PCA στην πιο απλή του μορφή. Περιστρέφει το σύστημα συντεταγμένων ώστε να ευθυγραμμιστεί με τα δεδομένα και μετά ρωτά ποιες από τις περιστραμμένες συντεταγμένες αξίζει να διατηρηθούν.
Τι Σημαίνουν Οι Κύριες Συνιστώσες
Κάθε κύρια συνιστώσα είναι ένας γραμμικός συνδυασμός των αρχικών μεταβλητών.
Αν η πρώτη συνιστώσα έχει τη μορφή
αυτό σημαίνει ότι η κύρια κατεύθυνση διακύμανσης είναι περίπου ένας ισοβαρής συνδυασμός των δύο πρώτων μεταβλητών. Η ακριβής ερμηνεία εξαρτάται από τις μεταβλητές και από το αν τα δεδομένα ήταν μόνο κεντραρισμένα ή και τυποποιημένα.
Τα scores είναι οι συντεταγμένες κάθε παρατήρησης μετά την προβολή στις κύριες κατευθύνσεις. Τα loadings περιγράφουν πόσο ισχυρά συμβάλλει κάθε αρχική μεταβλητή σε μια συνιστώσα.
Συνηθισμένα Λάθη Στο PCA
Παράλειψη Του Κεντραρίσματος
Το τυπικό PCA εφαρμόζεται συνήθως σε κεντραρισμένα δεδομένα. Αν παραλείψεις το κεντράρισμα, το αποτέλεσμα μπορεί να αντανακλά περισσότερο το μέσο επίπεδο των μεταβλητών παρά τη διακύμανση που πραγματικά σε ενδιαφέρει.
Αγνόηση Της Κλίμακας
Αν μία μεταβλητή μετριέται σε ευρώ και μια άλλη σε χιλιοστά, η μεταβλητή με τη μεγαλύτερη κλίμακα μπορεί να κυριαρχήσει στον υπολογισμό της διακύμανσης. Η τυποποίηση είναι συχνά κατάλληλη όταν οι μονάδες διαφέρουν και η σχετική κλίμακα δεν πρέπει να καθορίζει την απάντηση.
Η Ιδέα Ότι Το PCA Βρίσκει Το Πιο Σημαντικό Χαρακτηριστικό
Το PCA βρίσκει κατευθύνσεις μεγάλης διακύμανσης, όχι απαραίτητα κατευθύνσεις με την καλύτερη αιτιακή σημασία ή τον καλύτερο διαχωρισμό κλάσεων. Η μεγάλη διακύμανση και η μεγάλη χρησιμότητα δεν είναι πάντα το ίδιο πράγμα.
Αντιμετώπιση Των Προβολών Χαμηλής Διάστασης Ως Χωρίς Απώλειες
Η διατήρηση μόνο των πρώτων λίγων συνιστωσών είναι μια προσέγγιση. Μπορεί να είναι εξαιρετική, αλλά και πάλι απορρίπτει κάποια πληροφορία εκτός αν οι υπόλοιπες συνιστώσες έχουν ακριβώς μηδενική διακύμανση.
Πότε Είναι Χρήσιμο Το PCA
Το PCA είναι συνηθισμένο όταν οι μεταβλητές είναι συσχετισμένες και θέλεις μια απλούστερη αναπαράσταση των δεδομένων.
Τυπικές χρήσεις περιλαμβάνουν:
- μείωση του αριθμού των χαρακτηριστικών εισόδου πριν από τη μοντελοποίηση
- οπτικοποίηση δεδομένων υψηλής διάστασης σε δύο ή τρεις διαστάσεις
- συμπίεση μετρήσεων διατηρώντας το μεγαλύτερο μέρος της διακύμανσης
- εντοπισμό κυρίαρχων μοτίβων στα χρηματοοικονομικά, τη βιολογία, την ανάλυση εικόνας και την επεξεργασία σήματος
Η μέθοδος είναι πιο χρήσιμη όταν η δομή που βασίζεται στη διακύμανση αποτελεί μια λογική σύνοψη του προβλήματος.
Δοκίμασε Ένα Παρόμοιο Πρόβλημα
Σχεδίασε τα σημεία , , και . Κέντραρέ τα και μετά σύγκρινε τη διασπορά τους κατά μήκος των κατευθύνσεων και . Αυτή η μικρή άσκηση δείχνει καθαρά γιατί το PCA επιλέγει τη μία κατεύθυνση ως σημαντική και αντιμετωπίζει την άλλη ως σε μεγάλο βαθμό πλεονάζουσα.
Αν θέλεις να πας ένα βήμα παραπέρα, δοκίμασε τη δική σου εκδοχή με σημεία που δεν βρίσκονται τέλεια πάνω σε μια ευθεία και σύγκρινε πόση διακύμανση εξηγεί η πρώτη συνιστώσα σε σχέση με τη δεύτερη.
Χρειάζεσαι βοήθεια με μια άσκηση;
Ανέβασε την ερώτησή σου και πάρε επαληθευμένη λύση βήμα-βήμα σε δευτερόλεπτα.
Άνοιξε το GPAI Solver →