Θεωρία Παιγνίων — Ισορροπία Nash, Στρατηγικές και Πίνακας Αποδόσεων

Η θεωρία παιγνίων μελετά αποφάσεις όπου η καλύτερη κίνησή σου εξαρτάται από το τι κάνουν οι άλλοι. Ένας πίνακας αποδόσεων δείχνει το αποτέλεσμα για κάθε συνδυασμό επιλογών, και η ισορροπία Nash είναι ένα σύνολο επιλογών όπου κανένας παίκτης δεν μπορεί να τα πάει καλύτερα αν αλλάξει μόνος του.

Αυτές οι τρεις ιδέες, στρατηγική, απόδοση και ισορροπία, είναι ο πυρήνας των περισσότερων εισαγωγικών προβλημάτων θεωρίας παιγνίων. Μόλις γίνουν κατανοητές, πολλά παραδείγματα από τα βιβλία γίνονται πολύ πιο εύκολα στην ανάγνωση.

Ορισμός της θεωρίας παιγνίων: ποιο ερώτημα θέτει;

Σε ένα συνηθισμένο πρόβλημα βελτιστοποίησης, επιλέγεις την καλύτερη επιλογή σε μια σταθερή κατάσταση. Στη θεωρία παιγνίων, η κατάσταση μπορεί να αλλάξει επειδή και άλλοι παίκτες επιλέγουν, είτε ταυτόχρονα είτε ως απάντηση σε εσένα.

Άρα το ερώτημα αλλάζει από το «Ποια είναι η καλύτερη κίνησή μου;» στο «Ποια είναι η καλύτερη κίνησή μου δεδομένου του τι μπορεί να κάνουν οι άλλοι;». Αυτή η μετατόπιση είναι η βασική ιδέα της στρατηγικής αλληλεπίδρασης.

Στρατηγικές και αποδόσεις με απλή γλώσσα

Μια στρατηγική είναι η διαθέσιμη επιλογή ενός παίκτη ή ο κανόνας με τον οποίο ενεργεί στο παίγνιο. Σε ένα απλό παίγνιο μίας μόνο γύρας, μια στρατηγική μπορεί να είναι απλώς μία ενέργεια, όπως συνεργασία ή αποστασία.

Μια απόδοση είναι το αποτέλεσμα που παίρνει ένας παίκτης από έναν συγκεκριμένο συνδυασμό επιλογών. Μπορεί να εκφράζει χρήματα, βαθμούς, χρησιμότητα ή οποιαδήποτε κατάταξη όπου ένας μεγαλύτερος αριθμός σημαίνει καλύτερο αποτέλεσμα για τον παίκτη αυτόν.

Σε ένα παίγνιο δύο παικτών, αυτά τα αποτελέσματα οργανώνονται συχνά σε έναν πίνακα αποδόσεων. Κάθε κελί αντιστοιχίζει μία στρατηγική του Παίκτη A με μία στρατηγική του Παίκτη B.

Πώς να διαβάζεις έναν πίνακα αποδόσεων

Εδώ είναι ένας τυπικός πίνακας αποδόσεων τύπου Διλήμματος του Φυλακισμένου. Ο πρώτος αριθμός σε κάθε κελί είναι η απόδοση του Παίκτη A και ο δεύτερος είναι η απόδοση του Παίκτη B.

\begin{array}{c|cc} & \text{B: Cooperate} & \text{B: Defect} \\ \hline \text{A: Cooperate} & (3,3) & (0,5) \\ \text{A: Defect} & (5,0) & (1,1) \end{array}

Διάβασε κάθε κελί ως ένα πλήρες αποτέλεσμα:

Αν και οι δύο συνεργαστούν, ο καθένας παίρνει $3$ .
Αν ο ένας αποστατήσει ενώ ο άλλος συνεργάζεται, αυτός που αποστατεί παίρνει $5$ και αυτός που συνεργάζεται παίρνει $0$ .
Αν και οι δύο αποστατήσουν, ο καθένας παίρνει $1$ .

Οι ακριβείς αριθμοί δεν είναι κάποιος νόμος της θεωρίας παιγνίων. Είναι απλώς ένα μοτίβο αποδόσεων. Αυτό που έχει σημασία είναι η δομή των κινήτρων: κάθε παίκτης μπαίνει στον πειρασμό να αποστατήσει, παρόλο που και οι δύο θα προτιμούσαν να καταλήξουν στην αμοιβαία συνεργασία παρά στην αμοιβαία αποστασία.

Ισορροπία Nash: το σταθερό αποτέλεσμα

Η ισορροπία Nash είναι ένα σύνολο στρατηγικών όπου κανένας παίκτης δεν μπορεί να βελτιώσει τη δική του απόδοση αλλάζοντας μόνος του, ενώ οι άλλοι παίκτες κρατούν τις στρατηγικές τους αμετάβλητες.

Ένας άλλος τρόπος να το πούμε είναι ότι η επιλογή κάθε παίκτη είναι μια βέλτιστη απόκριση στις επιλογές των άλλων.

Αυτό δεν σημαίνει ότι το αποτέλεσμα είναι το καλύτερο για όλους. Σημαίνει μόνο ότι κανείς δεν έχει μονομερή κίνητρο να απομακρυνθεί από αυτό.

Λυμένο παράδειγμα: εύρεση ισορροπίας Nash

Χρησιμοποίησε τον παραπάνω πίνακα.

Αν ο Παίκτης B συνεργάζεται, ο Παίκτης A συγκρίνει τη συνεργασία με απόδοση $3$ με την αποστασία με απόδοση $5$ . Η αποστασία είναι καλύτερη.

Αν ο Παίκτης B αποστατεί, ο Παίκτης A συγκρίνει τη συνεργασία με απόδοση $0$ με την αποστασία με απόδοση $1$ . Η αποστασία παραμένει καλύτερη.

Άρα για τον Παίκτη A, η αποστασία είναι η βέλτιστη απόκριση και στις δύο περιπτώσεις. Λόγω συμμετρίας, το ίδιο ισχύει και για τον Παίκτη B.

Αυτό σημαίνει ότι το $(\text{Defect}, \text{Defect})$ είναι ισορροπία Nash. Μόλις και οι δύο παίκτες βρεθούν εκεί, κανένας δεν μπορεί να βελτιωθεί αλλάζοντας μόνος του.

Όμως δεν είναι το καλύτερο κοινό αποτέλεσμα. Η συνολική απόδοση στο $(\text{Cooperate}, \text{Cooperate})$ είναι $3+3=6$ , ενώ η συνολική απόδοση στο $(\text{Defect}, \text{Defect})$ είναι μόνο $1+1=2$ .

Αυτή είναι η βασική ιδέα: μια ισορροπία Nash μπορεί να είναι σταθερή χωρίς να είναι συλλογικά η καλύτερη.

Συνηθισμένα λάθη που κάνουν οι μαθητές

Ένα συνηθισμένο λάθος είναι να νομίζει κανείς ότι η ισορροπία Nash σημαίνει το καλύτερο δυνατό αποτέλεσμα για όλους. Δεν σημαίνει αυτό. Σημαίνει μόνο ότι κανένας παίκτης δεν ωφελείται αν αλλάξει μόνος του.

Ένα άλλο λάθος είναι να διαβάζεται ο πίνακας αποδόσεων μόνο από την οπτική ενός παίκτη. Κάθε κελί πρέπει να ελέγχεται από τη σκοπιά κάθε παίκτη.

Οι μαθητές επίσης μερικές φορές ξεχνούν ότι το μοντέλο εξαρτάται από τη δομή των αποδόσεων. Αν οι αποδόσεις αλλάξουν, μπορούν να αλλάξουν και οι βέλτιστες αποκρίσεις και η ισορροπία.

Πότε χρησιμοποιείται η θεωρία παιγνίων

Η θεωρία παιγνίων χρησιμοποιείται στα οικονομικά, στις δημοπρασίες, στην τιμολόγηση, στις διαπραγματεύσεις, στην ψηφοφορία, στον σχεδιασμό δικτύων και στην εξελικτική βιολογία. Οι λεπτομέρειες διαφέρουν από πεδίο σε πεδίο, αλλά το ίδιο βασικό ερώτημα επανέρχεται: πώς πρέπει να ενεργήσει ένας δρών όταν και οι άλλοι επιλέγουν επίσης;

Σε πιο προχωρημένα πλαίσια, η θεωρία παιγνίων μελετά επίσης μικτές στρατηγικές, επαναλαμβανόμενα παίγνια και παίγνια με περισσότερους από δύο παίκτες. Για μια πρώτη προσέγγιση, όμως, οι καθαρές στρατηγικές και ένας πίνακας αποδόσεων αρκούν για να χτιστεί η βασική διαίσθηση.

Δοκίμασε ένα παρόμοιο πρόβλημα

Δοκίμασε τη δική σου εκδοχή αλλάζοντας μία απόδοση στον πίνακα και υπολογίζοντας ξανά τις βέλτιστες αποκρίσεις. Για παράδειγμα, δες τι συμβαίνει αν η αμοιβαία συνεργασία δίνει $(4,4)$ ή αν η αμοιβαία αποστασία δίνει $(2,2)$ . Αυτός είναι ένας από τους πιο γρήγορους τρόπους να δεις ότι η ισορροπία εξαρτάται από τα κίνητρα και όχι από τις ετικέτες που έχουν οι στρατηγικές.

Αν θέλεις να πας ένα βήμα παραπέρα, σύγκρινε αυτή τη διάταξη με ένα παίγνιο συντονισμού, όπου οι παίκτες ωφελούνται όταν ταιριάζουν τις επιλογές τους. Βλέποντας και τις δύο περιπτώσεις δίπλα δίπλα, η ισορροπία Nash γίνεται πολύ πιο εύκολο να αναγνωριστεί.

Συχνές ερωτήσεις

Τι είναι η θεωρία παιγνίων με απλά λόγια;: Η θεωρία παιγνίων μελετά αποφάσεις όπου το αποτέλεσμα για κάθε άτομο εξαρτάται όχι μόνο από το τι κάνει το ίδιο, αλλά και από το τι κάνουν οι άλλοι.
Τι είναι ο πίνακας αποδόσεων;: Ένας πίνακας αποδόσεων είναι ένας πίνακας που καταγράφει το αποτέλεσμα για κάθε συνδυασμό στρατηγικών. Σε ένα παίγνιο δύο παικτών, κάθε κελί δείχνει μία απόδοση για κάθε παίκτη.
Τι είναι η ισορροπία Nash;: Η ισορροπία Nash είναι ένα προφίλ στρατηγικών όπου κανένας παίκτης δεν μπορεί να βελτιώσει τη δική του απόδοση αλλάζοντας μόνο τη δική του στρατηγική, ενώ οι άλλοι κρατούν τις επιλογές τους σταθερές.

Χρειάζεσαι βοήθεια με μια άσκηση;

Ανέβασε την ερώτησή σου και πάρε επαληθευμένη λύση βήμα-βήμα σε δευτερόλεπτα.

Άνοιξε το GPAI Solver →