博弈论研究的是:当你的最佳行动取决于别人怎么做时,你该如何决策。收益矩阵展示每一种选择组合对应的结果,而纳什均衡则是一组选择,在这组选择下,任何玩家都无法仅靠自己单独改变而做得更好。
这三个概念——策略、收益和均衡——构成了大多数博弈论入门题的核心。理解了它们,很多教材中的例子都会变得容易得多。
博弈论的定义:它在问什么问题?
在普通的最优化问题中,你是在一个固定情境下选择最优方案。而在博弈论中,情境会变化,因为其他参与者也在做选择,可能与你同时行动,也可能根据你的行动来回应。
所以问题就从“我的最佳行动是什么?”变成了“考虑到别人可能怎么做,我的最佳行动是什么?”这种变化正是策略互动的核心思想。
用通俗语言理解策略与收益
策略是玩家在博弈中可采用的选择或行动规则。在一个简单的一次性博弈中,策略可能就是一个具体行动,比如合作或背叛。
收益是玩家在某种特定选择组合下得到的结果。它可以表示金钱、分数、效用,或者任何一种排序,只要数值越大表示对该玩家越有利即可。
在双人博弈中,这些结果通常会整理成一个收益矩阵。矩阵中的每个单元格,都对应玩家 A 的一种策略与玩家 B 的一种策略的组合。
如何读收益矩阵
下面是一个经典的“囚徒困境”风格的收益矩阵。每个单元格中的第一个数字是玩家 A 的收益,第二个数字是玩家 B 的收益。
把每个单元格看作一种完整结果:
- 如果双方都合作,每人得到 。
- 如果一方背叛而另一方合作,背叛者得到 ,合作者得到 。
- 如果双方都背叛,每人得到 。
这些具体数字并不是博弈论的固定规定,它们只是某一种收益模式。真正重要的是激励结构:每个玩家都会受到背叛的诱惑,尽管双方其实都更希望达到“共同合作”而不是“共同背叛”的结果。
纳什均衡:稳定的结果
纳什均衡是这样一组策略:当其他玩家的策略保持不变时,任何玩家都无法通过单方面改变自己的策略来提高收益。
换一种说法,就是每个玩家的选择,都是对其他玩家选择的最优回应。
这并不意味着结果对所有人都是最好的。它只表示没有人有单方面偏离这个结果的动机。
例题:如何找出纳什均衡
使用上面的矩阵。
如果玩家 B 合作,玩家 A 会比较:合作得到 ,背叛得到 。显然背叛更好。
如果玩家 B 背叛,玩家 A 会比较:合作得到 ,背叛得到 。背叛仍然更好。
所以对玩家 A 来说,无论哪种情况,背叛都是最优回应。由于这个矩阵是对称的,玩家 B 也是一样。
这意味着 是一个纳什均衡。一旦双方都处在这个位置,任何一方都无法仅靠自己改变而获得更高收益。
但它并不是整体上最好的结果。在 处,总收益是 ;而在 处,总收益只有 。
这正是关键洞见:纳什均衡可以是稳定的,但不一定是集体最优的。
学生常犯的错误
一个常见错误是认为纳什均衡就是对所有人都最好的结果。其实不是。它只表示没有玩家能通过单方面改变而获益。
另一个错误是只从一位玩家的角度去读收益矩阵。每个单元格都必须从每位玩家的立场分别检查。
学生有时还会忽略:模型的结论取决于收益结构。如果收益发生变化,最优回应和均衡也可能随之改变。
博弈论用在什么地方
博弈论广泛应用于经济学、拍卖、定价、谈判、投票、网络设计和进化生物学。不同领域的细节各不相同,但核心问题始终相似:当其他参与者也在做选择时,一个行动者应该如何行动?
在更高阶的内容中,博弈论还会研究混合策略、重复博弈以及多于两位玩家的博弈。不过对于入门来说,纯策略和收益矩阵已经足以建立最核心的直觉。
试着做一道类似的题
你可以自己改动矩阵中的一个收益值,然后重新计算最优回应。比如,想一想如果共同合作的收益变成 ,或者共同背叛的收益变成 ,会发生什么。这是最快看出“均衡取决于激励,而不是策略名称”的方法之一。
如果你想再进一步,可以把这个设置与协调博弈进行比较。在协调博弈中,玩家会因为彼此选择一致而受益。把这两种情况并排来看,会让你更容易识别纳什均衡。