博弈论——纳什均衡、策略与收益矩阵

博弈论研究的是：当你的最佳行动取决于别人怎么做时，你该如何决策。收益矩阵展示每一种选择组合对应的结果，而纳什均衡则是一组选择，在这组选择下，任何玩家都无法仅靠自己单独改变而做得更好。

这三个概念——策略、收益和均衡——构成了大多数博弈论入门题的核心。理解了它们，很多教材中的例子都会变得容易得多。

博弈论的定义：它在问什么问题？

在普通的最优化问题中，你是在一个固定情境下选择最优方案。而在博弈论中，情境会变化，因为其他参与者也在做选择，可能与你同时行动，也可能根据你的行动来回应。

所以问题就从“我的最佳行动是什么？”变成了“考虑到别人可能怎么做，我的最佳行动是什么？”这种变化正是策略互动的核心思想。

策略是玩家在博弈中可采用的选择或行动规则。在一个简单的一次性博弈中，策略可能就是一个具体行动，比如合作或背叛。

收益是玩家在某种特定选择组合下得到的结果。它可以表示金钱、分数、效用，或者任何一种排序，只要数值越大表示对该玩家越有利即可。

在双人博弈中，这些结果通常会整理成一个收益矩阵。矩阵中的每个单元格，都对应玩家 A 的一种策略与玩家 B 的一种策略的组合。

下面是一个经典的“囚徒困境”风格的收益矩阵。每个单元格中的第一个数字是玩家 A 的收益，第二个数字是玩家 B 的收益。

\begin{array}{c|cc} & \text{B: Cooperate} & \text{B: Defect} \\ \hline \text{A: Cooperate} & (3,3) & (0,5) \\ \text{A: Defect} & (5,0) & (1,1) \end{array}

把每个单元格看作一种完整结果：

这些具体数字并不是博弈论的固定规定，它们只是某一种收益模式。真正重要的是激励结构：每个玩家都会受到背叛的诱惑，尽管双方其实都更希望达到“共同合作”而不是“共同背叛”的结果。

纳什均衡是这样一组策略：当其他玩家的策略保持不变时，任何玩家都无法通过单方面改变自己的策略来提高收益。

换一种说法，就是每个玩家的选择，都是对其他玩家选择的最优回应。

这并不意味着结果对所有人都是最好的。它只表示没有人有单方面偏离这个结果的动机。

使用上面的矩阵。

如果玩家 B 合作，玩家 A 会比较：合作得到 $3$ ，背叛得到 $5$ 。显然背叛更好。

如果玩家 B 背叛，玩家 A 会比较：合作得到 $0$ ，背叛得到 $1$ 。背叛仍然更好。

所以对玩家 A 来说，无论哪种情况，背叛都是最优回应。由于这个矩阵是对称的，玩家 B 也是一样。

这意味着 $(\text{Defect}, \text{Defect})$ 是一个纳什均衡。一旦双方都处在这个位置，任何一方都无法仅靠自己改变而获得更高收益。

但它并不是整体上最好的结果。在 $(\text{Cooperate}, \text{Cooperate})$ 处，总收益是 $3+3=6$ ；而在 $(\text{Defect}, \text{Defect})$ 处，总收益只有 $1+1=2$ 。

这正是关键洞见：纳什均衡可以是稳定的，但不一定是集体最优的。

一个常见错误是认为纳什均衡就是对所有人都最好的结果。其实不是。它只表示没有玩家能通过单方面改变而获益。

另一个错误是只从一位玩家的角度去读收益矩阵。每个单元格都必须从每位玩家的立场分别检查。

学生有时还会忽略：模型的结论取决于收益结构。如果收益发生变化，最优回应和均衡也可能随之改变。

博弈论广泛应用于经济学、拍卖、定价、谈判、投票、网络设计和进化生物学。不同领域的细节各不相同，但核心问题始终相似：当其他参与者也在做选择时，一个行动者应该如何行动？

在更高阶的内容中，博弈论还会研究混合策略、重复博弈以及多于两位玩家的博弈。不过对于入门来说，纯策略和收益矩阵已经足以建立最核心的直觉。

你可以自己改动矩阵中的一个收益值，然后重新计算最优回应。比如，想一想如果共同合作的收益变成 $(4,4)$ ，或者共同背叛的收益变成 $(2,2)$ ，会发生什么。这是最快看出“均衡取决于激励，而不是策略名称”的方法之一。

如果你想再进一步，可以把这个设置与协调博弈进行比较。在协调博弈中，玩家会因为彼此选择一致而受益。把这两种情况并排来看，会让你更容易识别纳什均衡。

上传你的问题，几秒钟内获得经过验证的分步解答。