ทฤษฎีเกม — ดุลยภาพแนช กลยุทธ์ และเมทริกซ์ผลตอบแทน

ทฤษฎีเกมศึกษาการตัดสินใจที่การเดินหมากที่ดีที่สุดของคุณขึ้นอยู่กับสิ่งที่คนอื่นทำ เมทริกซ์ผลตอบแทนแสดงผลลัพธ์ของแต่ละชุดทางเลือก และดุลยภาพแนชคือชุดทางเลือกที่ไม่มีผู้เล่นคนใดทำได้ดีกว่าเดิมด้วยการเปลี่ยนฝ่ายเดียว

แนวคิดสามอย่างนี้ ได้แก่ กลยุทธ์ ผลตอบแทน และดุลยภาพ คือแกนหลักของโจทย์ทฤษฎีเกมเบื้องต้นส่วนใหญ่ เมื่อเข้าใจสามอย่างนี้แล้ว ตัวอย่างในตำราหลายแบบจะอ่านง่ายขึ้นมาก

นิยามของทฤษฎีเกม: มันกำลังถามคำถามอะไร?

ในปัญหาการหาค่าเหมาะที่สุดทั่วไป คุณเลือกตัวเลือกที่ดีที่สุดในสถานการณ์ที่กำหนดไว้คงที่ แต่ในทฤษฎีเกม สถานการณ์อาจเปลี่ยนได้เพราะผู้เล่นคนอื่นก็กำลังเลือกอยู่เช่นกัน ไม่ว่าจะเลือกพร้อมกันหรือเลือกเพื่อตอบสนองต่อคุณ

ดังนั้นคำถามจึงเปลี่ยนจาก “ทางเดินที่ดีที่สุดของฉันคืออะไร?” เป็น “ทางเดินที่ดีที่สุดของฉันคืออะไร เมื่อคำนึงถึงสิ่งที่คนอื่นอาจทำ?” การเปลี่ยนมุมมองนี้คือหัวใจของปฏิสัมพันธ์เชิงกลยุทธ์

กลยุทธ์และผลตอบแทนแบบภาษาง่าย ๆ

กลยุทธ์คือทางเลือกที่ผู้เล่นมี หรือกฎที่ใช้ตัดสินใจในเกม ในเกมง่าย ๆ ที่เล่นครั้งเดียว กลยุทธ์อาจเป็นเพียงการกระทำหนึ่งอย่าง เช่น ร่วมมือ หรือ ทรยศ

ผลตอบแทนคือผลลัพธ์ที่ผู้เล่นได้รับจากชุดทางเลือกหนึ่ง ๆ อาจแทนด้วยเงิน คะแนน อรรถประโยชน์ หรือการจัดอันดับแบบใดก็ได้ที่ตัวเลขมากกว่าหมายถึงผลลัพธ์ที่ดีกว่าสำหรับผู้เล่นคนนั้น

ในเกมสองผู้เล่น ผลลัพธ์เหล่านี้มักจัดไว้ในเมทริกซ์ผลตอบแทน แต่ละช่องจับคู่หนึ่งกลยุทธ์ของผู้เล่น A กับหนึ่งกลยุทธ์ของผู้เล่น B

วิธีอ่านเมทริกซ์ผลตอบแทน

นี่คือตัวอย่างเมทริกซ์ผลตอบแทนแบบมาตรฐานของ Prisoner's Dilemma ตัวเลขตัวแรกในแต่ละช่องคือผลตอบแทนของผู้เล่น A และตัวที่สองคือผลตอบแทนของผู้เล่น B

\begin{array}{c|cc} & \text{B: Cooperate} & \text{B: Defect} \\ \hline \text{A: Cooperate} & (3,3) & (0,5) \\ \text{A: Defect} & (5,0) & (1,1) \end{array}

ให้อ่านแต่ละช่องว่าเป็นผลลัพธ์ที่สมบูรณ์หนึ่งแบบ:

ถ้าทั้งสองร่วมมือ แต่ละคนได้ $3$
ถ้าคนหนึ่งทรยศในขณะที่อีกคนร่วมมือ คนที่ทรยศได้ $5$ และคนที่ร่วมมือได้ $0$
ถ้าทั้งสองทรยศ แต่ละคนได้ $1$

ตัวเลขที่แน่นอนไม่ใช่กฎตายตัวของทฤษฎีเกม มันเป็นเพียงรูปแบบผลตอบแทนแบบหนึ่ง สิ่งสำคัญคือโครงสร้างของแรงจูงใจ: ผู้เล่นแต่ละคนถูกจูงใจให้ทรยศ แม้ว่าทั้งคู่จะอยากจบที่การร่วมมือกันมากกว่าการทรยศทั้งคู่

ดุลยภาพแนช: ผลลัพธ์ที่มีเสถียรภาพ

ดุลยภาพแนชคือชุดของกลยุทธ์ที่ไม่มีผู้เล่นคนใดสามารถเพิ่มผลตอบแทนของตนเองได้ด้วยการเปลี่ยนกลยุทธ์ฝ่ายเดียว ขณะที่ผู้เล่นคนอื่นคงกลยุทธ์เดิมไว้

พูดอีกแบบคือ ทางเลือกของผู้เล่นแต่ละคนเป็นการตอบสนองที่ดีที่สุดต่อทางเลือกของคนอื่น

แต่นั่นไม่ได้แปลว่าผลลัพธ์นั้นดีที่สุดสำหรับทุกคน มันเพียงหมายความว่าไม่มีใครมีแรงจูงใจฝ่ายเดียวที่จะเปลี่ยนออกจากจุดนั้น

ตัวอย่างทำจริง: การหาดุลยภาพแนช

ใช้เมทริกซ์ด้านบน

ถ้าผู้เล่น B ร่วมมือ ผู้เล่น A จะเปรียบเทียบการร่วมมือที่ได้ $3$ กับการทรยศที่ได้ $5$ การทรยศดีกว่า

ถ้าผู้เล่น B ทรยศ ผู้เล่น A จะเปรียบเทียบการร่วมมือที่ได้ $0$ กับการทรยศที่ได้ $1$ การทรยศก็ยังดีกว่า

ดังนั้นสำหรับผู้เล่น A การทรยศเป็นการตอบสนองที่ดีที่สุดในทั้งสองกรณี และด้วยความสมมาตร สิ่งเดียวกันก็เป็นจริงสำหรับผู้เล่น B

นั่นหมายความว่า $(\text{Defect}, \text{Defect})$ เป็นดุลยภาพแนช เมื่อผู้เล่นทั้งสองอยู่ที่จุดนี้แล้ว ไม่มีใครสามารถทำให้ตนเองดีขึ้นได้ด้วยการเปลี่ยนฝ่ายเดียว

แต่มันไม่ใช่ผลลัพธ์ร่วมที่ดีที่สุด ผลตอบแทนรวมที่ $(\text{Cooperate}, \text{Cooperate})$ คือ $3+3=6$ ขณะที่ผลตอบแทนรวมที่ $(\text{Defect}, \text{Defect})$ มีเพียง $1+1=2$

นี่คือข้อสังเกตสำคัญ: ดุลยภาพแนชอาจมีเสถียรภาพได้ โดยไม่จำเป็นต้องดีที่สุดสำหรับส่วนรวม

ข้อผิดพลาดที่นักเรียนมักทำ

ความเข้าใจผิดที่พบบ่อยคือคิดว่าดุลยภาพแนชหมายถึงผลลัพธ์ที่ดีที่สุดเท่าที่เป็นไปได้สำหรับทุกคน ซึ่งไม่จริง มันเพียงหมายความว่าไม่มีผู้เล่นคนใดได้ประโยชน์จากการเปลี่ยนฝ่ายเดียว

อีกข้อผิดพลาดหนึ่งคืออ่านเมทริกซ์ผลตอบแทนจากมุมของผู้เล่นเพียงคนเดียว แต่ละช่องต้องตรวจจากมุมมองของผู้เล่นแต่ละคน

นักเรียนบางคนยังลืมด้วยว่าแบบจำลองขึ้นอยู่กับโครงสร้างผลตอบแทน ถ้าผลตอบแทนเปลี่ยน การตอบสนองที่ดีที่สุดและดุลยภาพก็อาจเปลี่ยนตาม

ทฤษฎีเกมถูกใช้เมื่อไร

ทฤษฎีเกมถูกใช้ในเศรษฐศาสตร์ การประมูล การตั้งราคา การเจรจา การลงคะแนน การออกแบบเครือข่าย และชีววิทยาวิวัฒนาการ รายละเอียดอาจต่างกันไปตามสาขา แต่คำถามหลักเดิมยังคงกลับมาเสมอ: ตัวแทนหนึ่งควรตัดสินใจอย่างไรเมื่อคนอื่นก็กำลังเลือกอยู่ด้วย?

ในบริบทที่ซับซ้อนขึ้น ทฤษฎีเกมยังศึกษากลยุทธ์ผสม เกมเล่นซ้ำ และเกมที่มีผู้เล่นมากกว่าสองคน แต่สำหรับการเริ่มต้น กลยุทธ์บริสุทธิ์และเมทริกซ์ผลตอบแทนก็เพียงพอที่จะสร้างความเข้าใจหลักได้แล้ว

ลองทำโจทย์คล้ายกัน

ลองสร้างแบบของคุณเองโดยเปลี่ยนผลตอบแทนหนึ่งค่าในเมทริกซ์ แล้วคำนวณการตอบสนองที่ดีที่สุดใหม่ เช่น ลองถามว่าจะเกิดอะไรขึ้นถ้าการร่วมมือกันทั้งคู่ให้ผลตอบแทน $(4,4)$ หรือถ้าการทรยศกันทั้งคู่ให้ผลตอบแทน $(2,2)$ นี่เป็นวิธีที่เร็วที่สุดวิธีหนึ่งในการเห็นว่าดุลยภาพขึ้นอยู่กับแรงจูงใจ ไม่ใช่ชื่อที่ติดไว้กับกลยุทธ์

ถ้าคุณอยากไปต่ออีกขั้น ให้เปรียบเทียบสถานการณ์นี้กับ coordination game ซึ่งเป็นเกมที่ผู้เล่นได้ประโยชน์จากการเลือกให้ตรงกัน การเห็นทั้งสองกรณีวางคู่กันจะช่วยให้มองดุลยภาพแนชออกได้ง่ายขึ้นมาก

คำถามที่พบบ่อย

ทฤษฎีเกมคืออะไรแบบง่าย ๆ?: ทฤษฎีเกมศึกษาการตัดสินใจที่ผลลัพธ์ของแต่ละคนไม่ได้ขึ้นอยู่แค่กับสิ่งที่ตนเองทำ แต่ยังขึ้นอยู่กับสิ่งที่คนอื่นทำด้วย
เมทริกซ์ผลตอบแทนคืออะไร?: เมทริกซ์ผลตอบแทนคือตารางที่แสดงผลลัพธ์สำหรับทุกชุดของกลยุทธ์ที่เป็นไปได้ ในเกมสองผู้เล่น แต่ละช่องจะแสดงผลตอบแทนของผู้เล่นแต่ละคน
ดุลยภาพแนชคืออะไร?: ดุลยภาพแนชคือชุดของกลยุทธ์ที่ไม่มีผู้เล่นคนใดสามารถเพิ่มผลตอบแทนของตนเองได้ด้วยการเปลี่ยนกลยุทธ์ฝ่ายเดียว ขณะที่ผู้เล่นคนอื่นยังคงเลือกแบบเดิม

ต้องการความช่วยเหลือในการแก้โจทย์?

อัปโหลดคำถามของคุณแล้วรับคำตอบแบบทีละขั้นตอนที่ผ่านการตรวจสอบในไม่กี่วินาที

เปิด GPAI Solver →