Lý thuyết trò chơi là gì theo cách đơn giản?

Lý thuyết trò chơi nghiên cứu các quyết định mà kết quả của mỗi người không chỉ phụ thuộc vào việc họ làm gì, mà còn phụ thuộc vào việc người khác làm gì.

Ma trận lợi ích là gì?

Ma trận lợi ích là một bảng liệt kê kết quả cho mọi tổ hợp chiến lược. Trong trò chơi hai người, mỗi ô cho biết một mức lợi ích của mỗi người chơi.

Lý thuyết trò chơi — Cân bằng Nash, chiến lược và ma trận lợi ích

Q: Cân bằng Nash là gì?

Cân bằng Nash là một cấu hình chiến lược mà không người chơi nào có thể cải thiện lợi ích của mình bằng cách tự đổi chiến lược, khi những người khác giữ nguyên lựa chọn.

Lý thuyết trò chơi nghiên cứu các quyết định mà nước đi tốt nhất của bạn phụ thuộc vào việc người khác làm gì. Ma trận lợi ích cho thấy kết quả của từng tổ hợp lựa chọn, còn cân bằng Nash là một tập hợp lựa chọn mà không người chơi nào có thể làm tốt hơn nếu chỉ một mình họ thay đổi.

Ba ý tưởng đó — chiến lược, lợi ích và cân bằng — là cốt lõi của hầu hết các bài toán nhập môn về lý thuyết trò chơi. Khi đã nắm được chúng, nhiều ví dụ trong giáo trình sẽ trở nên dễ hiểu hơn nhiều.

Định nghĩa lý thuyết trò chơi: nó đang đặt ra câu hỏi gì?

Trong một bài toán tối ưu thông thường, bạn chọn phương án tốt nhất trong một tình huống cố định. Trong lý thuyết trò chơi, tình huống có thể thay đổi vì những người chơi khác cũng đang đưa ra lựa chọn, hoặc cùng lúc với bạn hoặc để phản ứng lại bạn.

Vì vậy, câu hỏi chuyển từ “Nước đi tốt nhất của mình là gì?” thành “Nước đi tốt nhất của mình là gì, xét đến những gì người khác có thể làm?” Sự thay đổi đó là ý tưởng chính đằng sau tương tác chiến lược.

Chiến lược và lợi ích theo cách dễ hiểu

Chiến lược là lựa chọn khả dụng của một người chơi hoặc là quy tắc hành động trong trò chơi. Trong một trò chơi đơn giản chỉ diễn ra một lần, chiến lược có thể chỉ là một hành động, chẳng hạn như hợp tác hoặc phản bội.

Lợi ích là kết quả mà một người chơi nhận được từ một tổ hợp lựa chọn cụ thể. Nó có thể biểu diễn tiền, điểm số, độ hữu ích, hoặc bất kỳ cách xếp hạng nào mà số lớn hơn nghĩa là kết quả tốt hơn cho người chơi đó.

Trong trò chơi hai người, các kết quả này thường được sắp xếp trong một ma trận lợi ích. Mỗi ô ghép một chiến lược của Người chơi A với một chiến lược của Người chơi B.

Cách đọc ma trận lợi ích

Dưới đây là một ma trận lợi ích kiểu Song đề tù nhân tiêu chuẩn. Số thứ nhất trong mỗi ô là lợi ích của Người chơi A, và số thứ hai là lợi ích của Người chơi B.

\begin{array}{c|cc} & \text{B: Cooperate} & \text{B: Defect} \\ \hline \text{A: Cooperate} & (3,3) & (0,5) \\ \text{A: Defect} & (5,0) & (1,1) \end{array}

Hãy đọc mỗi ô như một kết quả hoàn chỉnh:

Nếu cả hai cùng hợp tác, mỗi người nhận $3$ .
Nếu một người phản bội còn người kia hợp tác, người phản bội nhận $5$ và người hợp tác nhận $0$ .
Nếu cả hai cùng phản bội, mỗi người nhận $1$ .

Các con số cụ thể này không phải là một quy luật của lý thuyết trò chơi. Chúng chỉ là một dạng cấu trúc lợi ích. Điều quan trọng là cấu trúc khuyến khích: mỗi người chơi đều bị thôi thúc phản bội, dù cả hai đều muốn kết thúc ở trạng thái cùng hợp tác hơn là cùng phản bội.

Cân bằng Nash: kết quả ổn định

Cân bằng Nash là một tập hợp chiến lược mà không người chơi nào có thể cải thiện lợi ích của mình bằng cách tự đổi chiến lược, trong khi những người chơi khác giữ nguyên chiến lược của họ.

Một cách nói khác là lựa chọn của mỗi người chơi là phản ứng tối ưu trước lựa chọn của những người còn lại.

Điều đó không có nghĩa kết quả là tốt nhất cho tất cả mọi người. Nó chỉ có nghĩa là không ai có động cơ đơn phương để rời khỏi kết quả đó.

Ví dụ có lời giải: tìm cân bằng Nash

Hãy dùng ma trận ở trên.

Nếu Người chơi B hợp tác, Người chơi A so sánh hợp tác để nhận $3$ với phản bội để nhận $5$ . Phản bội tốt hơn.

Nếu Người chơi B phản bội, Người chơi A so sánh hợp tác để nhận $0$ với phản bội để nhận $1$ . Phản bội vẫn tốt hơn.

Vì vậy, với Người chơi A, phản bội là phản ứng tối ưu trong cả hai trường hợp. Do tính đối xứng, điều tương tự cũng đúng với Người chơi B.

Điều đó có nghĩa là $(\text{Defect}, \text{Defect})$ là một cân bằng Nash. Khi cả hai người chơi đã ở đó, không ai trong số họ có thể cải thiện kết quả của mình nếu chỉ tự mình thay đổi.

Nhưng đó không phải là kết quả chung tốt nhất. Tổng lợi ích tại $(\text{Cooperate}, \text{Cooperate})$ là $3+3=6$ , trong khi tổng lợi ích tại $(\text{Defect}, \text{Defect})$ chỉ là $1+1=2$ .

Đây là điểm mấu chốt: một cân bằng Nash có thể ổn định mà không phải là tốt nhất cho cả tập thể.

Những lỗi thường gặp của học sinh

Một lỗi phổ biến là nghĩ rằng cân bằng Nash nghĩa là kết quả tốt nhất có thể cho tất cả mọi người. Không phải vậy. Nó chỉ có nghĩa là không người chơi nào được lợi nếu tự mình thay đổi.

Một lỗi khác là đọc ma trận lợi ích chỉ từ góc nhìn của một người chơi. Mỗi ô phải được kiểm tra từ quan điểm của từng người chơi.

Học sinh cũng đôi khi quên rằng mô hình phụ thuộc vào cấu trúc lợi ích. Nếu các mức lợi ích thay đổi, các phản ứng tối ưu và trạng thái cân bằng cũng có thể thay đổi.

Khi nào lý thuyết trò chơi được dùng

Lý thuyết trò chơi được dùng trong kinh tế học, đấu giá, định giá, đàm phán, bỏ phiếu, thiết kế mạng và sinh học tiến hóa. Chi tiết khác nhau theo từng lĩnh vực, nhưng cùng một câu hỏi cốt lõi luôn quay lại: một tác nhân nên hành động thế nào khi những tác nhân khác cũng đang lựa chọn?

Trong các bối cảnh nâng cao hơn, lý thuyết trò chơi còn nghiên cứu chiến lược hỗn hợp, trò chơi lặp lại và trò chơi có nhiều hơn hai người chơi. Tuy vậy, để bắt đầu, chiến lược thuần túy và ma trận lợi ích là đủ để hình thành trực giác chính.

Hãy thử một bài tương tự

Hãy tự thử một phiên bản của riêng bạn bằng cách thay đổi một mức lợi ích trong ma trận rồi tính lại các phản ứng tối ưu. Ví dụ, hãy hỏi điều gì xảy ra nếu cùng hợp tác cho lợi ích $(4,4)$ hoặc nếu cùng phản bội cho lợi ích $(2,2)$ . Đây là một trong những cách nhanh nhất để thấy rằng trạng thái cân bằng phụ thuộc vào động cơ khuyến khích, chứ không phụ thuộc vào nhãn gắn cho các chiến lược.

Nếu bạn muốn đi thêm một bước, hãy so sánh thiết lập này với một trò chơi phối hợp, nơi người chơi được lợi khi khớp lựa chọn của nhau. Khi nhìn hai trường hợp cạnh nhau, bạn sẽ nhận ra cân bằng Nash dễ hơn nhiều.

Cần trợ giúp giải bài?

Tải câu hỏi lên và nhận lời giải từng bước đã được xác minh trong vài giây.

Mở GPAI Solver →