Ο συντελεστής συσχέτισης συνήθως αναφέρεται στον συντελεστή συσχέτισης του Pearson, που γράφεται . Μετρά την κατεύθυνση και την ισχύ μιας γραμμικής σχέσης μεταξύ δύο αριθμητικών μεταβλητών.
Αν το είναι θετικό, οι μεταβλητές τείνουν να αυξάνονται μαζί. Αν το είναι αρνητικό, η μία τείνει να μειώνεται καθώς η άλλη αυξάνεται. Αν το είναι κοντά στο , το Pearson's λέει ότι υπάρχει μικρό γραμμικό μοτίβο, όχι απαραίτητα ότι δεν υπάρχει καμία σχέση.
Το Pearson's είναι πιο χρήσιμο όταν τα δεδομένα έρχονται σε ζεύγη, και οι δύο μεταβλητές είναι αριθμητικές και το μοτίβο που θέλεις να συνοψίσεις είναι μια ευθεία τάση.
Τι σου δείχνει ο συντελεστής συσχέτισης
Το Pearson's είναι ένα τυποποιημένο μέτρο του πώς δύο μεταβλητές μεταβάλλονται μαζί. Για ένα δείγμα ζευγαρωμένων δεδομένων, ο τύπος είναι
Ο αριθμητής είναι θετικός όταν οι μεταβλητές τείνουν να κινούνται προς την ίδια κατεύθυνση και αρνητικός όταν τείνουν να κινούνται προς αντίθετες κατευθύνσεις. Ο παρονομαστής επανακλιμακώνει αυτή την κοινή μεταβολή χρησιμοποιώντας τη διασπορά κάθε μεταβλητής.
Όταν το Pearson's ορίζεται, πρέπει να ικανοποιεί
Αν μία μεταβλητή δεν έχει καθόλου μεταβολή, ο παρονομαστής γίνεται , οπότε το Pearson's δεν ορίζεται.
Πώς να ερμηνεύεις θετικές, αρνητικές και σχεδόν μηδενικές τιμές
Ξεκίνα από το πρόσημο:
- : θετική γραμμική συσχέτιση
- : αρνητική γραμμική συσχέτιση
- : καμία γραμμική συσχέτιση
Έπειτα κοίτα το μέτρο . Τιμές πιο κοντά στο σημαίνουν ότι τα σημεία μένουν πιο κοντά σε ένα μοτίβο ευθείας γραμμής. Τιμές πιο κοντά στο σημαίνουν ότι το γραμμικό μοτίβο είναι πιο αδύναμο.
Να είσαι προσεκτικός με χαρακτηρισμούς όπως «ασθενής», «μέτρια» ή «ισχυρή». Αυτά τα όρια εξαρτώνται από το πλαίσιο. Σε ένα πεδίο, το μπορεί να έχει σημασία. Σε άλλο, μπορεί να είναι πολύ μικρό για να στηρίξει μια απόφαση.
Η πιο ασφαλής συνήθεια είναι να διαβάζεις το μαζί με ένα διάγραμμα διασποράς. Ο αριθμός είναι μια σύνοψη του μοτίβου που βλέπεις· δεν πρέπει να αντικαθιστά την εικόνα.
Λυμένο παράδειγμα: Υπολογισμός του
Έστω ότι τα ζευγαρωμένα δεδομένα είναι
Πρώτα υπολόγισε τους μέσους όρους:
Τώρα γράψε τις αποκλίσεις από τους μέσους όρους:
- Για το :
- Για το :
Πολλαπλασίασε τις ζευγαρωμένες αποκλίσεις και πρόσθεσε:
Τώρα υπολόγισε τα δύο αθροίσματα τετραγώνων:
Άρα
Αυτό σου λέει ότι υπάρχει ισχυρή θετική γραμμική συσχέτιση σε αυτό το δείγμα. Καθώς το αυξάνεται, το συνήθως αυξάνεται επίσης, και τα σημεία θα βρίσκονταν αρκετά κοντά σε μια ανοδική ευθεία.
Συνηθισμένα λάθη στην ερμηνεία της συσχέτισης
Αντιμετώπιση της συσχέτισης ως αιτιότητας
Μια υψηλή συσχέτιση δεν αποδεικνύει ότι η μία μεταβλητή προκαλεί την άλλη. Ένας τρίτος παράγοντας μπορεί να επηρεάζει και τις δύο, ή η σχέση μπορεί να είναι συμπτωματική στα παρατηρούμενα δεδομένα.
Να ξεχνάς ότι το Pearson's είναι γραμμικό
Το Pearson's μετρά καλά μόνο τη γραμμική συσχέτιση. Μια καμπύλη σχέση μπορεί να δώσει μικρή συσχέτιση ακόμη κι όταν οι μεταβλητές σχετίζονται καθαρά.
Αγνόηση ακραίων τιμών
Ένα ασυνήθιστο σημείο μπορεί να αλλάξει πολύ το . Αν το διάγραμμα διασποράς έχει μια ακραία τιμή, η συσχέτιση μπορεί να δώσει παραπλανητική εικόνα για το συνολικό μοτίβο.
Χρήση του Pearson's όταν το πλαίσιο δεν ταιριάζει
Το Pearson's έχει σχεδιαστεί για ζευγαρωμένα αριθμητικά δεδομένα και γραμμική συσχέτιση. Αν μία μεταβλητή είναι κατηγορική ή αν το μοτίβο είναι καθαρά καμπύλο, αυτός ο συντελεστής μπορεί να μην απαντά στο ερώτημα που πραγματικά σε ενδιαφέρει.
Υπερερμηνεία μιας τιμής κοντά στο μηδέν
Μια τιμή κοντά στο σημαίνει «μικρή γραμμική συσχέτιση», όχι «καμία σχέση οποιουδήποτε είδους».
Πότε χρησιμοποιείται ο συντελεστής συσχέτισης του Pearson
Το Pearson's χρησιμοποιείται συχνά στη στατιστική, στις επιστήμες, στα οικονομικά, στην κοινωνική έρευνα και στη μηχανική μάθηση ως μια γρήγορη σύνοψη ζευγαρωμένων αριθμητικών δεδομένων. Είναι πιο χρήσιμο όταν θέλεις να δεις αν υπάρχει μοτίβο ευθείας γραμμής πριν περάσεις σε ένα μοντέλο όπως η γραμμική παλινδρόμηση.
Στην πράξη, ένα διάγραμμα διασποράς πρέπει να προηγείται. Ο συντελεστής είναι σύνοψη, όχι υποκατάστατο της εξέτασης των δεδομένων.
Δοκίμασε ένα παρόμοιο πρόβλημα
Πάρε ένα μικρό σύνολο δεδομένων που ήδη καταλαβαίνεις, σχεδίασε τα σημεία και εκτίμησε αν η τάση φαίνεται θετική, αρνητική ή ασαφής πριν υπολογίσεις το . Αυτή η γρήγορη σύγκριση είναι ένας από τους πιο γρήγορους τρόπους να χτίσεις διαίσθηση για το τι πραγματικά λέει ο συντελεστής συσχέτισης.
Αν θέλεις να προχωρήσεις ένα βήμα παραπέρα, εξέτασε τα ίδια δεδομένα με μια απλή ευθεία γραμμικής παλινδρόμησης. Αυτό κάνει πιο εύκολο να δεις πώς σχετίζονται η συσχέτιση και η πρόβλεψη, χωρίς όμως να είναι το ίδιο πράγμα.
Χρειάζεσαι βοήθεια με μια άσκηση;
Ανέβασε την ερώτησή σου και πάρε επαληθευμένη λύση βήμα-βήμα σε δευτερόλεπτα.
Άνοιξε το GPAI Solver →