ทฤษฎีเกมศึกษาการตัดสินใจที่การเดินหมากที่ดีที่สุดของคุณขึ้นอยู่กับสิ่งที่คนอื่นทำ เมทริกซ์ผลตอบแทนแสดงผลลัพธ์ของแต่ละชุดทางเลือก และดุลยภาพแนชคือชุดทางเลือกที่ไม่มีผู้เล่นคนใดทำได้ดีกว่าเดิมด้วยการเปลี่ยนฝ่ายเดียว
แนวคิดสามอย่างนี้ ได้แก่ กลยุทธ์ ผลตอบแทน และดุลยภาพ คือแกนหลักของโจทย์ทฤษฎีเกมเบื้องต้นส่วนใหญ่ เมื่อเข้าใจสามอย่างนี้แล้ว ตัวอย่างในตำราหลายแบบจะอ่านง่ายขึ้นมาก
นิยามของทฤษฎีเกม: มันกำลังถามคำถามอะไร?
ในปัญหาการหาค่าเหมาะที่สุดทั่วไป คุณเลือกตัวเลือกที่ดีที่สุดในสถานการณ์ที่กำหนดไว้คงที่ แต่ในทฤษฎีเกม สถานการณ์อาจเปลี่ยนได้เพราะผู้เล่นคนอื่นก็กำลังเลือกอยู่เช่นกัน ไม่ว่าจะเลือกพร้อมกันหรือเลือกเพื่อตอบสนองต่อคุณ
ดังนั้นคำถามจึงเปลี่ยนจาก “ทางเดินที่ดีที่สุดของฉันคืออะไร?” เป็น “ทางเดินที่ดีที่สุดของฉันคืออะไร เมื่อคำนึงถึงสิ่งที่คนอื่นอาจทำ?” การเปลี่ยนมุมมองนี้คือหัวใจของปฏิสัมพันธ์เชิงกลยุทธ์
กลยุทธ์และผลตอบแทนแบบภาษาง่าย ๆ
กลยุทธ์คือทางเลือกที่ผู้เล่นมี หรือกฎที่ใช้ตัดสินใจในเกม ในเกมง่าย ๆ ที่เล่นครั้งเดียว กลยุทธ์อาจเป็นเพียงการกระทำหนึ่งอย่าง เช่น ร่วมมือ หรือ ทรยศ
ผลตอบแทนคือผลลัพธ์ที่ผู้เล่นได้รับจากชุดทางเลือกหนึ่ง ๆ อาจแทนด้วยเงิน คะแนน อรรถประโยชน์ หรือการจัดอันดับแบบใดก็ได้ที่ตัวเลขมากกว่าหมายถึงผลลัพธ์ที่ดีกว่าสำหรับผู้เล่นคนนั้น
ในเกมสองผู้เล่น ผลลัพธ์เหล่านี้มักจัดไว้ในเมทริกซ์ผลตอบแทน แต่ละช่องจับคู่หนึ่งกลยุทธ์ของผู้เล่น A กับหนึ่งกลยุทธ์ของผู้เล่น B
วิธีอ่านเมทริกซ์ผลตอบแทน
นี่คือตัวอย่างเมทริกซ์ผลตอบแทนแบบมาตรฐานของ Prisoner's Dilemma ตัวเลขตัวแรกในแต่ละช่องคือผลตอบแทนของผู้เล่น A และตัวที่สองคือผลตอบแทนของผู้เล่น B
ให้อ่านแต่ละช่องว่าเป็นผลลัพธ์ที่สมบูรณ์หนึ่งแบบ:
- ถ้าทั้งสองร่วมมือ แต่ละคนได้
- ถ้าคนหนึ่งทรยศในขณะที่อีกคนร่วมมือ คนที่ทรยศได้ และคนที่ร่วมมือได้
- ถ้าทั้งสองทรยศ แต่ละคนได้
ตัวเลขที่แน่นอนไม่ใช่กฎตายตัวของทฤษฎีเกม มันเป็นเพียงรูปแบบผลตอบแทนแบบหนึ่ง สิ่งสำคัญคือโครงสร้างของแรงจูงใจ: ผู้เล่นแต่ละคนถูกจูงใจให้ทรยศ แม้ว่าทั้งคู่จะอยากจบที่การร่วมมือกันมากกว่าการทรยศทั้งคู่
ดุลยภาพแนช: ผลลัพธ์ที่มีเสถียรภาพ
ดุลยภาพแนชคือชุดของกลยุทธ์ที่ไม่มีผู้เล่นคนใดสามารถเพิ่มผลตอบแทนของตนเองได้ด้วยการเปลี่ยนกลยุทธ์ฝ่ายเดียว ขณะที่ผู้เล่นคนอื่นคงกลยุทธ์เดิมไว้
พูดอีกแบบคือ ทางเลือกของผู้เล่นแต่ละคนเป็นการตอบสนองที่ดีที่สุดต่อทางเลือกของคนอื่น
แต่นั่นไม่ได้แปลว่าผลลัพธ์นั้นดีที่สุดสำหรับทุกคน มันเพียงหมายความว่าไม่มีใครมีแรงจูงใจฝ่ายเดียวที่จะเปลี่ยนออกจากจุดนั้น
ตัวอย่างทำจริง: การหาดุลยภาพแนช
ใช้เมทริกซ์ด้านบน
ถ้าผู้เล่น B ร่วมมือ ผู้เล่น A จะเปรียบเทียบการร่วมมือที่ได้ กับการทรยศที่ได้ การทรยศดีกว่า
ถ้าผู้เล่น B ทรยศ ผู้เล่น A จะเปรียบเทียบการร่วมมือที่ได้ กับการทรยศที่ได้ การทรยศก็ยังดีกว่า
ดังนั้นสำหรับผู้เล่น A การทรยศเป็นการตอบสนองที่ดีที่สุดในทั้งสองกรณี และด้วยความสมมาตร สิ่งเดียวกันก็เป็นจริงสำหรับผู้เล่น B
นั่นหมายความว่า เป็นดุลยภาพแนช เมื่อผู้เล่นทั้งสองอยู่ที่จุดนี้แล้ว ไม่มีใครสามารถทำให้ตนเองดีขึ้นได้ด้วยการเปลี่ยนฝ่ายเดียว
แต่มันไม่ใช่ผลลัพธ์ร่วมที่ดีที่สุด ผลตอบแทนรวมที่ คือ ขณะที่ผลตอบแทนรวมที่ มีเพียง
นี่คือข้อสังเกตสำคัญ: ดุลยภาพแนชอาจมีเสถียรภาพได้ โดยไม่จำเป็นต้องดีที่สุดสำหรับส่วนรวม
ข้อผิดพลาดที่นักเรียนมักทำ
ความเข้าใจผิดที่พบบ่อยคือคิดว่าดุลยภาพแนชหมายถึงผลลัพธ์ที่ดีที่สุดเท่าที่เป็นไปได้สำหรับทุกคน ซึ่งไม่จริง มันเพียงหมายความว่าไม่มีผู้เล่นคนใดได้ประโยชน์จากการเปลี่ยนฝ่ายเดียว
อีกข้อผิดพลาดหนึ่งคืออ่านเมทริกซ์ผลตอบแทนจากมุมของผู้เล่นเพียงคนเดียว แต่ละช่องต้องตรวจจากมุมมองของผู้เล่นแต่ละคน
นักเรียนบางคนยังลืมด้วยว่าแบบจำลองขึ้นอยู่กับโครงสร้างผลตอบแทน ถ้าผลตอบแทนเปลี่ยน การตอบสนองที่ดีที่สุดและดุลยภาพก็อาจเปลี่ยนตาม
ทฤษฎีเกมถูกใช้เมื่อไร
ทฤษฎีเกมถูกใช้ในเศรษฐศาสตร์ การประมูล การตั้งราคา การเจรจา การลงคะแนน การออกแบบเครือข่าย และชีววิทยาวิวัฒนาการ รายละเอียดอาจต่างกันไปตามสาขา แต่คำถามหลักเดิมยังคงกลับมาเสมอ: ตัวแทนหนึ่งควรตัดสินใจอย่างไรเมื่อคนอื่นก็กำลังเลือกอยู่ด้วย?
ในบริบทที่ซับซ้อนขึ้น ทฤษฎีเกมยังศึกษากลยุทธ์ผสม เกมเล่นซ้ำ และเกมที่มีผู้เล่นมากกว่าสองคน แต่สำหรับการเริ่มต้น กลยุทธ์บริสุทธิ์และเมทริกซ์ผลตอบแทนก็เพียงพอที่จะสร้างความเข้าใจหลักได้แล้ว
ลองทำโจทย์คล้ายกัน
ลองสร้างแบบของคุณเองโดยเปลี่ยนผลตอบแทนหนึ่งค่าในเมทริกซ์ แล้วคำนวณการตอบสนองที่ดีที่สุดใหม่ เช่น ลองถามว่าจะเกิดอะไรขึ้นถ้าการร่วมมือกันทั้งคู่ให้ผลตอบแทน หรือถ้าการทรยศกันทั้งคู่ให้ผลตอบแทน นี่เป็นวิธีที่เร็วที่สุดวิธีหนึ่งในการเห็นว่าดุลยภาพขึ้นอยู่กับแรงจูงใจ ไม่ใช่ชื่อที่ติดไว้กับกลยุทธ์
ถ้าคุณอยากไปต่ออีกขั้น ให้เปรียบเทียบสถานการณ์นี้กับ coordination game ซึ่งเป็นเกมที่ผู้เล่นได้ประโยชน์จากการเลือกให้ตรงกัน การเห็นทั้งสองกรณีวางคู่กันจะช่วยให้มองดุลยภาพแนชออกได้ง่ายขึ้นมาก
ต้องการความช่วยเหลือในการแก้โจทย์?
อัปโหลดคำถามของคุณแล้วรับคำตอบแบบทีละขั้นตอนที่ผ่านการตรวจสอบในไม่กี่วินาที
เปิด GPAI Solver →