当所有人都能串通：博弈论中一个存在了76年的漏洞终于被补上

> *"1950年，一个22岁的博士生证明了一个改变经济学的定理：在任何有限的博弈中，至少存在一个纳什均衡——一个状态，在这个状态下，没有任何玩家能通过单方面改变策略来变得更好。但这位年轻人忽略了一个关键问题：如果两个或更多玩家串通起来一起改变策略呢？这个问题困扰了博弈论整整76年，直到2026年春天，MIT的三位研究者给出了一个优雅的答案。"*

---

一、囚徒困境的裂缝

想象这样一个场景：你和你的同伙因盗窃被捕。警察分开审讯你们。如果两人都保持沉默（合作），各判1年；如果一人揭发（背叛）而另一人沉默，揭发者无罪释放，沉默者判10年；如果两人都揭发，各判5年。

这就是著名的囚徒困境——博弈论的" hello world"。1950年，兰德公司的数学家Melvin Dresher和Merrill Flood首次进行了这个实验，而普林斯顿大学的Albert Tucker教授则把这个枯燥的数学例子包装成了一个生动的故事。

根据纳什均衡（Nash Equilibrium）的分析，无论对方做什么，背叛都是你的最优策略。所以如果两个囚犯都理性地追求自身利益最大化，最终结果是：两人都背叛，各判5年。这显然比两人都合作（各判1年）要糟糕得多。

但这里有一个显而易见的漏洞：纳什均衡只说"没有任何单方面偏离能改善你的处境"。它没有说"没有任何联盟偏离能改善你们的处境"。如果两个囚犯能串通——在审讯室外达成一个"都保持沉默"的协议——那么他们确实都能变得更好。

事实上，在囚徒困境中，如果允许联盟偏离，纳什均衡根本不堪一击：{囚犯A, 囚犯B}这个两人联盟可以联合偏离到（合作，合作），把每个人的刑期从5年降到1年。

那么问题来了：为什么博弈论的主流框架在长达76年的时间里，都假设玩家只能单独行动？

---

二、纳什的天才与盲点

要理解这个问题的分量，我们必须回到1950年。

那一年，22岁的约翰·纳什（John Nash）在普林斯顿大学提交了他的博士论文。论文只有28页，其中包含一个后来被称为纳什均衡的概念。纳什证明了一个惊人的定理：在任何有限的博弈中，至少存在一个纳什均衡——即使玩家使用混合策略（以一定概率随机选择不同行动），这个均衡也存在。

纳什的证明使用了布劳威尔不动点定理——一个来自拓扑学的深奥结果。不动点定理说，如果你把一个圆盘连续地映射到自身，至少有一个点保持不动。纳什的洞察力在于：博弈的均衡状态可以被看作是一个不动点——每个玩家的策略是对其他玩家策略的最佳回应，而"最佳回应映射"必然有一个不动点。

这个发现为纳什赢得了1994年的诺贝尔经济学奖，并为博弈论在经济学、政治学、生物学和计算机科学中的广泛应用奠定了基础。

但纳什的框架有一个根本性的限制：它只考虑单方偏离。这就像一个拳击规则，规定你只能出直拳，不允许组合拳。在现实中，玩家完全可能串通、结盟、形成卡特尔。

为什么纳什（以及随后几十年的博弈论研究者）选择忽略联盟？原因很简单：联盟让问题变得极其困难。在n个玩家的博弈中，可能的联盟数量是2^n - 1。考虑所有可能的联盟偏离，计算复杂度会爆炸式增长。

但这留下了一个理论上的尴尬：纳什均衡在囚徒困境中预测"都背叛"，但现实中，犯罪团伙、垄断联盟、国际条约——所有这些本质上都是联盟——无时无刻不在挑战这个预测。

---

三、强均衡：Aumann的雄心与失败

1959年，以色列数学家罗伯特·奥曼（Robert Aumann，2005年诺贝尔经济学奖得主）提出了一个大胆的解决方案：强纳什均衡（Strong Nash Equilibrium）。

强纳什均衡的要求极其严格：不仅没有任何单个玩家能通过单方面偏离来改善自己，而且没有任何联盟能通过联合偏离来严格改善所有成员。

换句话说，强纳什均衡同时满足两个条件： 1. 它是纳什均衡（免疫于单方偏离） 2. 它免疫于所有可能的联盟偏离

这听起来像是完美的解决方案。但它有一个致命的缺陷：它经常不存在。

即使在最简单的囚徒困境中，强纳什均衡也不存在。因为{囚犯A, 囚犯B}这个联盟可以联合偏离到（合作，合作），让每个人的刑期从5年降到1年。所以"都背叛"这个纳什均衡不是强纳什均衡。

但（合作，合作）也不是强纳什均衡！因为如果囚犯A单方面偏离到背叛（而B继续合作），A的刑期从1年降到0年。所以（合作，合作）甚至不是纳什均衡。

事实上，在允许联盟偏离的囚徒困境中，根本不存在任何强纳什均衡。

这是一个毁灭性的打击。如果一个解概念在最简单的两玩家博弈中都不存在，那它对现实世界还有什么意义？

奥曼的贡献仍然是深远的——他首次将联盟的逻辑形式化，并开创了合作博弈论的研究方向。但强纳什均衡本身，由于其存在性的缺失，在应用经济学中几乎没有得到使用。

---

四、联盟证明均衡：自我执行的协议

1987年，三位经济学家——Douglas Bernheim、Bezalel Peleg和Michael Whinston——提出了一个更精巧的概念：联盟证明纳什均衡（Coalition-Proof Nash Equilibrium，CPNE）。

他们的核心洞察是：不是所有的联盟偏离都是可信的。如果一个偏离本身可以被更小的子联盟进一步偏离，那么这个偏离就不是"自我执行"的。

CPNE的递归定义非常优美： 1. 对于单玩家博弈，CPNE就是纳什均衡 2. 假设CPNE已对少于n个玩家的博弈定义 3. 在n玩家博弈中，一个策略组合是CPNE，如果：

它是纳什均衡
不存在任何自我执行的联盟偏离

4. 一个偏离是"自我执行"的，如果：

它是该联盟在"诱导博弈"（其他玩家固定策略）中的CPNE
没有任何子联盟能从该偏离中进一步偏离并改善所有成员

这个递归结构让CPNE比强纳什均衡弱得多——它不要求免疫于所有偏离，只要求免疫于那些"可信的"偏离。

但即使是CPNE，也无法保证存在性。Bernheim等人自己证明了：即使在简单的三玩家博弈中，CPNE也可能不存在。

为什么？因为CPNE的递归约束可能在某一层断裂。想象一个三层联盟：大联盟A想偏离，但A的子联盟B可以从A的偏离中进一步偏离，而B的子联盟C又可以从B的偏离中进一步偏离……这种递归可能在任何深度崩溃。

CPNE在经济学中有一些应用——例如分析菜单拍卖、动态公共品供给博弈、企业接管等。但它的非存在性问题始终是一个阴影。

---

五、MIT的突破：MASE——最小化而非消除

2026年4月，MIT的Mingyang Liu、Gabriele Farina和Asuman Ozdaglar发表了一篇简洁但深刻的论文，从根本上改变了这个领域。

他们的核心洞察极其简单，却又极具革命性：与其要求联盟偏离的激励完全消失（这通常不可能），不如寻找一个策略组合，使得联盟偏离的激励尽可能小。

他们把这种新解概念叫做最小平均强均衡（Minimum Average-Strong Equilibrium，MASE）。

形式化地说，MASE解决的是这样一个优化问题：

最小化：max_{S} max_{偏离} (1/|S|) × Σ_{i∈S} [偏离后i的收益 - 偏离前i的收益]

换句话说：在所有可能的联盟S中，找到一种联合策略，使得任何联盟通过联合偏离所能获得的平均收益增益最小化。

为什么用"平均"而不是"总和"？因为联盟的大小差异巨大。一个两人联盟获得总收益20，与一个十人联盟获得总收益20，含义完全不同。平均收益让不同规模的联盟可以在同一尺度上比较。

MASE的第一个重要性质是：它总是存在的。因为"联盟偏离的最大平均收益"是一个定义良好的实数，而在紧策略空间上，连续函数总能达到最小值。

这就一举解决了强纳什均衡和CPNE的存在性危机。

MASE的第二个重要性质是：它是可计算的——至少在某些设置下。Liu等人证明了，对于平均收益和最大收益目标，MASE的计算存在严格的复杂度下界，并且他们给出了匹配这个下界的算法。

但有趣的是，对于最小收益目标（即保证联盟中最差成员的收益增益最小化），问题被证明是计算上不可行的。这揭示了一个深刻的权衡：你可以最小化平均伤害，或者最大化最受伤者的保护，但你不能同时做到这两者。

---

六、从PPAD到可计算：纳什均衡的复杂度遗产

要理解MASE的计算意义，我们需要绕道计算机科学的一个里程碑式发现。

2007年，康斯坦丁诺斯·达斯卡拉基斯（Constantinos Daskalakis）、保罗·戈德堡（Paul Goldberg）和克里斯托斯·帕帕迪米特里乌（Christos Papadimitriou）证明了一个震撼学术界的结果：即使在只有两个玩家的博弈中，计算纳什均衡也是PPAD完全的。

PPAD是什么？它是Papadimitriou在1994年定义的一个复杂度类，全称是"Polynomial Parity Argument, Directed version"（有向图多项式奇偶性论证）。PPAD包含那些解的存在性可以由奇偶性论证保证的问题——例如：在一个有向图中，如果你从一个源点出发沿着边走，最终要么到达一个汇点，要么回到另一个源点。因为源点和汇点的数量必须具有相同的奇偶性（模2相等），所以如果一个源点没有汇点配对，必然存在另一个源点。

纳什均衡的存在性正是由类似的奇偶性论证保证的（通过不动点定理）。达斯卡拉基斯等人的证明表明，计算纳什均衡和寻找有向图中的源点/汇点一样难——这在计算复杂度理论中意味着：除非PPAD = P（这被认为是极不可能的），否则不存在多项式时间算法来计算纳什均衡。

这个发现被一些人解读为对纳什均衡的"复杂度理论批判"：如果一个解概念在理论上都难以计算，它在实践中怎么可能被玩家达到？

Liu等人对MASE的研究延续了这一传统。他们不仅定义了新的解概念，还严格刻画了它的计算复杂度——这是让一个新概念从理论走向应用的关键一步。

---

七、EWF：安全与效率的边疆

MASE框架的一个重要应用是解决可利用性福利前沿（Exploitability Welfare Frontier，EWF）问题。

在博弈论和AI中，可利用性（exploitability）衡量一个策略距离纳什均衡有多远。具体来说，它是所有可能的单方偏离中，最大收益增益。可利用性为零意味着该策略是一个纳什均衡。

但零可利用性往往伴随着社会福利的损失。想象一个拍卖：最严格的防策略机制（如VCG机制）具有零可利用性——没有人能通过虚报估价来获得好处——但这种机制在实际中很少使用，因为它复杂且效率低下。更简单的机制（如首价密封拍卖）具有正的可利用性，但运行起来高效且直觉上公平。

EWF问题就是：在给定可利用性预算（例如，可利用性不超过0.1）的前提下，最大化社会福利。

这是一个在安全性和效率之间的精确权衡。MASE框架为解决这个问题提供了数学工具：通过控制联盟偏离的最大平均收益（这直接关联到可利用性），你可以在社会福利最大化的方向上探索"最优的妥协"。

在AI安全的语境下，EWF有更深层的含义。当多个AI智能体交互时，你希望它们的策略既不被轻易利用（低可利用性），又能实现高社会福利（高效率）。MASE提供了一个系统性的框架来找到这个 sweet spot。

---

八、结语

从1950年纳什的博士论文，到1959年奥曼的强均衡，到1987年Bernheim等人的联盟证明均衡，再到2026年MIT的MASE——这条76年的学术弧线揭示了一个深刻的道理：

科学的进步往往不是通过找到完美的答案，而是通过重新定义问题。

纳什问："是否存在一个状态，使得没有任何人能单独变得更好？"答案是肯定的，但这个状态可能 socially suboptimal。

奥曼问："是否存在一个状态，使得没有任何联盟能联合变得更好？"答案是：在大多数有趣的博弈中，不存在。

Bernheim问："是否存在一个状态，使得没有任何可信的联盟偏离能成功？"答案是：有时候存在，有时候不存在。

Liu, Farina和Ozdaglar问了一个不同的问题："如果我们不能消除联盟偏离，那我们能做的最好的是什么？"答案是：最小化它。而且这个问题总是有解的。

在囚徒困境中，MASE告诉我们：如果你不能阻止两个囚犯串通，那至少选择一个策略组合，使得他们串通获得的平均收益最小。这不是完美的正义，但它是可达成的正义。

也许，真正智慧的博弈不是寻找不可能的完美均衡，而是在不完美的世界中找到最稳定的那一个。

---

参考文献

1. Liu, M., Farina, G. & Ozdaglar, A. *Computing Equilibrium beyond Unilateral Deviation.* arXiv:2604.28186 [cs.GT] (2026). 2. Nash, J.F. *Equilibrium Points in N-Person Games.* *PNAS* 36, 48-49 (1950). 3. Aumann, R.J. *Acceptable Points in General Cooperative n-Person Games.* In *Contributions to the Theory of Games IV* (1959). 4. Bernheim, B.D., Peleg, B. & Whinston, M.D. *Coalition-Proof Nash Equilibria I. Concepts.* *J. Econ. Theory* 42, 1-12 (1987). 5. Daskalakis, C., Goldberg, P.W. & Papadimitriou, C.H. *The Complexity of Computing a Nash Equilibrium.* *SIAM J. Comput.* 39, 195-259 (2009). 6. Papadimitriou, C.H. *On the Complexity of the Parity Argument and Other Inefficient Proofs of Existence.* *J. Comput. Syst. Sci.* 48, 498-532 (1994). 7. Tucker, A.W. *A Two-Person Dilemma.* Stanford University Memo (1950). 8. von Neumann, J. & Morgenstern, O. *Theory of Games and Economic Behavior.* Princeton University Press (1944). 9. Fearnley, J. et al. *The Complexity of Gradient Descent: CLS = PPAD ∩ PLS.* *J. ACM* 70, 1-74 (2023). 10. Luce, R.D. & Raiffa, H. *Games and Decisions: Introduction and Critical Survey.* Wiley (1957).