Η ανάλυση παλινδρόμησης εξηγεί πώς αλλάζει μια έκβαση όταν αλλάζουν μία ή περισσότερες μεταβλητές πρόβλεψης. Χρησιμοποίησε απλή γραμμική παλινδρόμηση για μία μεταβλητή πρόβλεψης και αριθμητική έκβαση, πολλαπλή γραμμική παλινδρόμηση για πολλές μεταβλητές πρόβλεψης και αριθμητική έκβαση, και λογιστική παλινδρόμηση για δυαδική έκβαση όπως επιτυχία/αποτυχία.

Αυτή η διάκριση απαντά γρήγορα στο βασικό ερώτημα αναζήτησης:

  • Απλή γραμμική παλινδρόμηση: μία μεταβλητή πρόβλεψης, αριθμητική έκβαση.
  • Πολλαπλή γραμμική παλινδρόμηση: πολλές μεταβλητές πρόβλεψης, αριθμητική έκβαση.
  • Λογιστική παλινδρόμηση: δυαδική έκβαση όπως ναι/όχι, επιτυχία/αποτυχία ή έκανε κλικ/δεν έκανε κλικ.

Μετά από αυτό, η πραγματική δουλειά είναι η ερμηνεία. Ένας συντελεστής σημαίνει αυτό που νομίζεις μόνο αν το μοντέλο ταιριάζει με τον τύπο της έκβασης και προσαρμόζεται αρκετά καλά στα δεδομένα.

Τι κάνει η ανάλυση παλινδρόμησης

Η παλινδρόμηση δεν σχεδιάζει απλώς μια ευθεία ανάμεσα σε σημεία. Χτίζει έναν κανόνα που συνδέει τις μεταβλητές πρόβλεψης με μια αναμενόμενη έκβαση, ώστε να μπορείς να εξηγήσεις μοτίβα ή να κάνεις προβλέψεις.

Στη γραμμική παλινδρόμηση, αυτός ο κανόνας είναι ένα μοντέλο ευθείας γραμμής για την αναμενόμενη τιμή της έκβασης. Στη λογιστική παλινδρόμηση, το μοντέλο κατασκευάζεται για πιθανότητες, ώστε οι προβλεπόμενες τιμές να μένουν μεταξύ 00 και 11.

Απλή γραμμική παλινδρόμηση: μία μεταβλητή πρόβλεψης, αριθμητική έκβαση

Η απλή γραμμική παλινδρόμηση χρησιμοποιεί μία μεταβλητή πρόβλεψης xx και μία αριθμητική έκβαση yy:

y^=b0+b1x\hat{y} = b_0 + b_1x

Εδώ το y^\hat{y} είναι η προβλεπόμενη έκβαση, το b0b_0 είναι η σταθερά και το b1b_1 είναι η κλίση.

Η κλίση b1b_1 σου λέει την προβλεπόμενη μεταβολή στο yy για αύξηση κατά μία μονάδα στο xx, αν ένα γραμμικό μοτίβο είναι λογική προσέγγιση στο εύρος που σε ενδιαφέρει.

Πολλαπλή γραμμική παλινδρόμηση: πολλές μεταβλητές πρόβλεψης, μία αριθμητική έκβαση

Η πολλαπλή γραμμική παλινδρόμηση κρατά την ίδια βασική ιδέα, αλλά χρησιμοποιεί περισσότερες από μία μεταβλητές πρόβλεψης:

y^=b0+b1x1+b2x2++bpxp\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

Αυτό είναι χρήσιμο όταν μία μόνο μεταβλητή πρόβλεψης είναι υπερβολικά απλή. Οι πραγματικές εκβάσεις συχνά εξαρτώνται από πολλούς παράγοντες ταυτόχρονα.

Η βασική αλλαγή στην ερμηνεία είναι σημαντική: το b1b_1 είναι η προβλεπόμενη μεταβολή στο yy για αύξηση κατά μία μονάδα στο x1x_1, ενώ οι άλλες μεταβλητές πρόβλεψης που περιλαμβάνονται κρατούνται σταθερές.

Αυτή η συνθήκη «κρατώντας τις άλλες μεταβλητές πρόβλεψης σταθερές» είναι που κάνει την πολλαπλή παλινδρόμηση διαφορετική από μια σειρά συγκρίσεων μίας μεταβλητής.

Λογιστική παλινδρόμηση: δυαδικές εκβάσεις και πιθανότητες

Η λογιστική παλινδρόμηση είναι για δυαδική έκβαση, όχι για αριθμητική. Αν η έκβαση είναι κάτι όπως έγινε δεκτός ή όχι, αποχώρησε ή παρέμεινε, ή πέρασε ή απέτυχε, τότε η γραμμική παλινδρόμηση συνήθως δεν είναι το σωστό εργαλείο.

Αντί να μοντελοποιεί την ίδια την έκβαση ως ευθεία γραμμή, η λογιστική παλινδρόμηση μοντελοποιεί τον λογάριθμο των odds της έκβασης:

log(p1p)=b0+b1x1+b2x2++bpxp\log\left(\frac{p}{1-p}\right) = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

όπου p=P(Y=1x1,x2,,xp)p = P(Y=1 \mid x_1, x_2, \ldots, x_p).

Το αριστερό μέλος είναι ο λογάριθμος των odds, όχι η ίδια η πιθανότητα. Αυτή η διατύπωση έχει σημασία επειδή οι πιθανότητες πρέπει να μένουν μεταξύ 00 και 11: ένα απλό μοντέλο ευθείας μπορεί να προβλέψει αδύνατες τιμές όπως 1.21.2 ή 0.1-0.1, αλλά η λογιστική παλινδρόμηση όχι.

Λυμένο παράδειγμα: πρόβλεψη βαθμολογίας έναντι πρόβλεψης επιτυχίας/αποτυχίας

Ας υποθέσουμε ότι ένας καθηγητής θέλει να μελετήσει την επίδοση των μαθητών.

Αν η έκβαση είναι η βαθμολογία στις εξετάσεις και η μόνη μεταβλητή πρόβλεψης είναι οι ώρες μελέτης, ένα απλό γραμμικό μοντέλο μπορεί να είναι

y^=42+5x\hat{y} = 42 + 5x

Αν ένας μαθητής μελετά 66 ώρες, η προβλεπόμενη βαθμολογία είναι

y^=42+5(6)=72\hat{y} = 42 + 5(6) = 72

Εδώ η κλίση λέει ότι η προβλεπόμενη βαθμολογία αυξάνεται κατά 55 μονάδες για κάθε επιπλέον ώρα μελέτης, αν το γραμμικό μοντέλο προσαρμόζεται λογικά στα δεδομένα.

Τώρα ας υποθέσουμε ότι ο καθηγητής συμπεριλαμβάνει επίσης τις ώρες ύπνου και τον αριθμό των διαγωνισμάτων εξάσκησης. Ένα μοντέλο πολλαπλής παλινδρόμησης μπορεί να είναι

y^=20+4x1+2x2+1.5x3\hat{y} = 20 + 4x_1 + 2x_2 + 1.5x_3

όπου το x1x_1 είναι οι ώρες μελέτης, το x2x_2 είναι οι ώρες ύπνου και το x3x_3 είναι τα διαγωνίσματα εξάσκησης που ολοκληρώθηκαν.

Ο συντελεστής 44 έχει τώρα πιο συγκεκριμένη σημασία: είναι η προβλεπόμενη μεταβολή στη βαθμολογία για μία επιπλέον ώρα μελέτης, κρατώντας σταθερές τις ώρες ύπνου και τα διαγωνίσματα εξάσκησης.

Τώρα άλλαξε το ερώτημα. Αντί να προβλέπει βαθμολογία, ας υποθέσουμε ότι ο καθηγητής θέλει την πιθανότητα να περάσει ένας μαθητής. Αυτό κάνει την έκβαση δυαδική, οπότε η λογιστική παλινδρόμηση είναι η φυσική επιλογή:

log(p1p)=6+0.8x1+0.5x2\log\left(\frac{p}{1-p}\right) = -6 + 0.8x_1 + 0.5x_2

Αν ένας μαθητής μελετά 66 ώρες και κοιμάται 77 ώρες, τότε

6+0.8(6)+0.5(7)=2.3-6 + 0.8(6) + 0.5(7) = 2.3

οπότε η προβλεπόμενη πιθανότητα είναι

p=11+e2.30.91p = \frac{1}{1 + e^{-2.3}} \approx 0.91

Αυτό το μοντέλο προβλέπει περίπου 91%91\% πιθανότητα επιτυχίας. Οι ακριβείς αριθμοί είναι απλώς ένα παράδειγμα. Η βασική ιδέα είναι ότι όταν η έκβαση αλλάζει από βαθμολογία σε επιτυχία/αποτυχία, πρέπει να αλλάζει και η οικογένεια του μοντέλου παλινδρόμησης.

Συνηθισμένα λάθη στην ανάλυση παλινδρόμησης

Χρήση γραμμικής παλινδρόμησης για δυαδική έκβαση

Αν η έκβαση είναι μόνο 00 ή 11, η λογιστική παλινδρόμηση είναι συνήθως πιο κατάλληλη επειδή έχει σχεδιαστεί για πιθανότητες. Η γραμμική παλινδρόμηση μπορεί να χρησιμοποιηθεί σε ορισμένες ειδικές περιπτώσεις ως προσέγγιση, αλλά μπορεί επίσης να δώσει κακές προβλέψεις πιθανοτήτων.

Αντιμετώπιση της παλινδρόμησης ως απόδειξη αιτιότητας

Η παλινδρόμηση μπορεί να περιγράψει συσχέτιση και να υποστηρίξει την πρόβλεψη. Δεν αποδεικνύει από μόνη της ότι η αλλαγή μιας μεταβλητής προκαλεί αλλαγή στην έκβαση.

Παράβλεψη των προϋποθέσεων του μοντέλου

Ένας συντελεστής σημαίνει αυτό που νομίζεις μόνο αν το επιλεγμένο μοντέλο προσαρμόζεται λογικά στα δεδομένα. Για τη γραμμική παλινδρόμηση, αυτό συχνά σημαίνει να ελέγχεις αν μια ευθύγραμμη σύνοψη έχει νόημα και αν τα σφάλματα δείχνουν κάποιο μοτίβο που το μοντέλο δεν κατέγραψε.

Υπερερμηνεία των συντελεστών στην πολλαπλή παλινδρόμηση

Στην πολλαπλή παλινδρόμηση, ένας συντελεστής είναι υπό συνθήκη ως προς τις άλλες μεταβλητές πρόβλεψης που περιλαμβάνονται. Αν λείπουν σημαντικές μεταβλητές ή αν οι μεταβλητές πρόβλεψης είναι έντονα αλληλένδετες μεταξύ τους, η ερμηνεία γίνεται λιγότερο σταθερή.

Πού χρησιμοποιείται η ανάλυση παλινδρόμησης

Η παλινδρόμηση χρησιμοποιείται όταν θέλεις να εξηγήσεις τη μεταβλητότητα, να εκτιμήσεις σχέσεις υπό συνθήκη ή να κάνεις προβλέψεις από δεδομένα.

Θα τη δεις σε επιχειρηματικές προβλέψεις, στην ιατρική, στις κοινωνικές επιστήμες, στον ποιοτικό έλεγχο, στην εκπαίδευση και στη μηχανική μάθηση. Η ακριβής μορφή εξαρτάται από την έκβαση: οι αριθμητικές εκβάσεις συχνά οδηγούν σε γραμμικά μοντέλα, ενώ οι δυαδικές εκβάσεις συχνά οδηγούν σε λογιστικά μοντέλα.

Πώς να επιλέξεις το σωστό μοντέλο παλινδρόμησης

Κάνε πρώτα αυτές τις δύο ερωτήσεις:

  1. Η έκβαση είναι αριθμητική ή δυαδική;
  2. Πόσες μεταβλητές πρόβλεψης θέλω να συμπεριλάβω;

Αν η έκβαση είναι αριθμητική, ξεκίνα με γραμμική παλινδρόμηση. Αν υπάρχει μία μεταβλητή πρόβλεψης, είναι απλή γραμμική παλινδρόμηση. Αν υπάρχουν πολλές, είναι πολλαπλή γραμμική παλινδρόμηση.

Αν η έκβαση είναι δυαδική, ξεκίνα με λογιστική παλινδρόμηση.

Αυτό δεν εγγυάται ότι το μοντέλο είναι καλό, αλλά σε βάζει γρήγορα στη σωστή οικογένεια μοντέλων.

Δοκίμασε ένα παρόμοιο πρόβλημα

Πάρε ένα μικρό σύνολο δεδομένων και κάνε δύο διαφορετικές ερωτήσεις γι’ αυτό. Πρώτα πρόβλεψε μια αριθμητική έκβαση, όπως η βαθμολογία. Έπειτα μετέτρεψε την έκβαση σε δυαδική μορφή, όπως επιτυχία ή αποτυχία. Αυτή η σύγκριση δίπλα δίπλα είναι ένας από τους πιο γρήγορους τρόπους για να κατανοήσεις πραγματικά την ανάλυση παλινδρόμησης.

Χρειάζεσαι βοήθεια με μια άσκηση;

Ανέβασε την ερώτησή σου και πάρε επαληθευμένη λύση βήμα-βήμα σε δευτερόλεπτα.

Άνοιξε το GPAI Solver →