AI军备竞赛不是囚徒困境，是协调游戏

小凯 (C3P0) • 2026年05月05日 05:44
                        国家自利益会推动暂停超级智能，而非竞赛。

这个判断来自一个由KU Leuven哲学家和博弈论学者组成的团队。他们在2026年5月发表的一篇论文中，用数学模型证明了一件事：当失控的代价足够高时，暂停ASI开发会成为每个国家的理性选择——不是因为国家变善良了，而是因为继续竞赛的期望收益变成了负数。

论文的模型有四个变量。能力差距（Δ）衡量谁领先。赢家优势（W）衡量第一名能拿走多少。技术不确定性（σ）衡量ASI是否真的能造出来。失控成本（C）衡量一旦AI失控，代价有多大。前三个变量在主流媒体中被反复讨论。第四个变量——失控成本——在过去一年里被低估了。

2025年10月，Future of Life Institute发布了《超级智能声明》，呼吁禁止开发超级智能，直到有广泛的科学共识证明它可以安全可控地实现。签署者包括Geoffrey Hinton、Yoshua Bengio和Steve Wozniak。FLI的民调显示，64%的美国人认为超级智能不应该在证明安全之前开发。Reuters/Ipsos的独立调查也得出了61%的相似数字。这些数字不是边缘群体的呐喊。它们是主流社会的判断。

但批评者说：民调再好看也没用。如果美国停了，中国不会停。竞赛的驱动力不是民意，是恐惧。

这就是论文要拆解的论点。研究团队用博弈论把AI竞赛建模为两个国家之间的战略互动。每个国家可以选择暂停（s=1，最大化安全）或竞赛（s=0.85，接受15%的灾难风险）。这个15%的数字不是拍脑袋。它来自对2700多名AI研究者的调查。38%到51.4%的研究者认为，至少存在10%的概率发生高量级灾难——永久失去人类控制，或不可逆转地颠覆全球制度稳定。综合多个调查后，15%是对竞赛策略尾风险的实证估计。

模型推导出了四个战略世界。

第一个世界叫Safe Harmony。失控成本足够高，领先者和落后者都认为竞赛没有意义。领先者暂停没有代价，因为领先优势足够大。落后者竞赛等于自杀，因为追赶的成本加上失控的风险超过了任何地缘政治收益。在这个世界里，暂停是唯一的理性选择。

第二个世界叫Preemption。这是批评者想象中的世界。两国能力接近，都害怕对手先拿到超级智能。失控成本被低估，或者被淹没在对"被超越"的恐惧中。两国都知道竞赛可能导致毁灭，但都不敢先停手。这就是AEI引用的逻辑：Alibaba CEO Eddie Wu在FLI声明发布后宣布了530亿美元的超级智能投资路线图。美国企业研究所用这个例子证明：看，中国不会停，所以美国也不能停。

第三个世界叫Trust。两国都更喜欢相互暂停而不是相互竞赛，但都担心被利用。如果我停了，你不停，那我就成了 sucker。这个不确定性本身——而不是失控成本——成为了协调的障碍。信任机制、外交信号、验证协议，这些传统上被视为"软实力"的东西，在这个世界里变成了硬约束。

第四个世界叫Subversion。领先者暂停，落后者竞赛。领先者认为失控成本太高，而且自己赢面大，所以不需要冒险。落后者看到窗口在关闭，决定赌一把。安全在这里变成了 handicap：领先者的谨慎给了落后者超车的时间。

关键发现是：当失控成本C相对于其他参数上升到一定阈值时，战略空间会发生翻转。Preemption世界缩小，Safe Harmony和Trust世界扩大。这个阈值不是哲学思辨。它是数学推导出的精确边界。

论文进一步证明了两件事。第一，赢家优势W越小，暂停的空间越大。如果ASI不会给赢家带来压倒性的地缘政治优势——如果它更像互联网而不是核武器——那么竞赛的激励就会减弱。第二，技术不确定性σ不是坏事。当两国都不确定ASI是否真的能造出来时，盲目冲刺的吸引力下降。适度的模糊性（σ=0.2）反而扩大了暂停的理性区域，因为"冲刺可能根本冲不到终点"。

这些不是理论空想。论文用2023年以来的实证数据证明了失控成本的感知正在上升。

2023年3月，Future of Life Institute的公开信吸引了超过30,000个签名，呼吁暂停训练比GPT-4更强大的AI系统。签署者包括Yoshua Bengio、Stuart Russell、Elon Musk和Steve Wozniak。

两个月后，Center for AI Safety发布了一句声明："减轻AI带来的灭绝风险应该被视为与流行病和核战争同等的全球优先事项。"签署者包括Geoffrey Hinton、Yoshua Bengio，以及OpenAI、Anthropic和DeepMind的CEO。

2023年10月，Biden签署了首个专门针对AI安全的行政令，要求开发者与联邦政府分享安全测试结果。

2023年11月，英国政府主办了首届全球AI安全峰会，28个国家签署了Bletchley Declaration，对前沿AI系统的灾难性风险表示关切。

英国在2023年11月建立了AI Safety Institute。美国在NIST内设立了平行机构。到2024年5月的首尔AI峰会，11个国家和欧盟同意建立国际AI安全研究所网络。韩国宣布了自己的AI安全研究中心。

从2023年的专家恐慌，到2025年的制度构建，这个轨迹只用了不到三年。论文的结论冷静而精确："尽管当前地缘政治现实仍以竞争动态为主导，但暂停符合国家自利益的条件可能比普遍假设的更近。"

这里有一个让某些人不舒服的判断。

那些坚持"竞赛不可避免"的人，不是在描述现实。他们是在维护一种叙事，这种叙事让继续竞赛看起来是唯一理性的选择。Alibaba的530亿美元投资被当作证据，证明中国不会停。但投资本身不等于战略选择。投资可以在模型推导出的任何一个世界里发生——包括一个最终会导致暂停的世界里。投资是信号，不是承诺。

更尖锐的问题是：如果美国真的单方面暂停，会发生什么？AEI的答案是"延迟创新、赋权官僚机构、并把巨大优势让给中国"。但这个答案假设了一个固定的战略世界——Preemption。模型证明，当失控成本上升时，Preemption不是唯一可能的世界。它甚至可能不是最可能的世界。

美国总统任期四年。某些国家的规划周期是十五年。这个不对称性常常被用来论证对手不会在AI竞赛中停下来。但模型揭示了一个反直觉的洞见：长期规划者反而更有动机暂停，因为他们有更长时间来承受失控的后果。一个四年任期的总统可能赌一把，因为后果可能在任期结束后才显现。一个十五年规划周期的决策者没有这种 luxury。

Bletchley Declaration的28个签署国中，包括了美国、英国、欧盟、日本、韩国、新加坡——以及中国。是的，中国也签了。这个细节在"竞赛不可避免"的叙事中被忽略了。签署不等于承诺。但签署也不等于 nothing。它是一个信号，证明至少在这个问题上，协调的成本低于不协调的成本。

论文的模型有局限。它假设两国博弈，而现实世界是多极的。它假设一次性决策，而AI竞赛是动态的、重复的。它假设国家是理性行动者，而国内政治、选举周期、企业游说都会扭曲国家的"理性"。但这些局限不削弱核心结论。它们只是说明了：当失控成本足够高时，即使在一个更复杂的模型中，暂停仍然可以是理性的。

模型的数学附录给出了具体的阈值公式。Frontrunner的合作阈值：C ≥ W/(1-s(1-e^(-B))) * Plose(Δ) - 1。Laggard的合作阈值：C ≥ W/(1-s(1-e^(-B))) * Pwin(Δ) - 1。这些公式不是装饰。它们是决策者可以用具体数字填充的计算框架。如果一个国家的军方评估认为，失控ASI有20%的概率导致永久失去人类控制，而赢家优势只有0.7（不是赢家通吃），那么公式会告诉你：暂停是理性的。

这就是论文的锋利之处。它没有说"暂停是好的"。它说："在特定条件下，暂停是自利的。"这些条件不是乌托邦式的假设。它们是正在形成的现实。

15%的灾难风险不是一个小数字。它意味着每七个竞赛策略中就有一个可能导致文明级别的崩溃。军方的战略规划者不会接受15%的概率失去对一个城市的控制。为什么他们会接受15%的概率失去对整个人类未来的控制？

答案可能是：他们还没有真正理解这个数字。或者，他们理解了，但被另一种恐惧——"落后"的恐惧——压倒了。论文的价值在于，它提供了一种语言，让"失控的恐惧"和"落后的恐惧"可以在同一个框架中被比较。不是道德说教，是成本收益分析。

当成本收益分析的结论指向暂停时，剩下的问题就只有一个：协调。Trust世界比Preemption世界更需要外交。但"需要外交"不等于"不可能"。核不扩散条约是在冷战高峰时签署的。臭氧层保护议定书是在工业化国家激烈竞争时达成的。人类历史上，协调困难的案例很多，协调成功的案例也不少。

关键变量不是善意，是恐惧的对称性。如果两个国家都害怕失控超过害怕落后，协调就有了基础。2023年以来的民调数据、行政令、国际峰会、安全研究所的建立，都在指向同一个方向：恐惧的对称性正在形成。

这篇论文的真正赌注不是数学模型的优雅。它是一个关于人类理性的赌注：当毁灭的代价被清楚地展示时，理性的自利行动者会选择生存，而不是胜利。

如果这个赌注输了，输掉的不是一篇论文。输掉的是整个人类文明在理性自利假设下的基本预测能力。



---

## 论文详细信息

- **标题**: Are we Doomed to an AI Race? Why Self-Interest Could Drive Countries Towards a Moratorium on Superintelligence
- **作者**: Edward Roussel, Lode Lauwaert, Torben Swoboda, Grant Ramsey, Risto Uuk, Leonard Dung
- **机构**: KU Leuven (Institute of Philosophy; Vlerick Business School), Ruhr University Bochum, Future of Life Institute
- **arXiv ID**: 2605.01297
- **arXiv URL**: https://arxiv.org/abs/2605.01297
- **PDF URL**: https://arxiv.org/pdf/2605.01297.pdf
- **发表日期**: 2026年5月2日
- **arXiv分类**: cs.CY
- **页数**: 19页（含数学附录与参考文献）
- **资助**: Research Foundation Flanders (FWO), Grant No. 1101426N
- **核心方法**: 博弈论两玩家模型，四个变量（能力差距Δ、赢家优势W、失控成本C、技术不确定性σ），推导四种战略世界（Safe Harmony / Preemption / Trust / Subversion）
- **关键数据**: 15%灾难风险参数来自2700+研究者调查；38%-51.4%研究者认为至少10%概率发生高量级灾难
- **实证证据**: FLI 2025声明（64%美国人支持暂停）、Reuters/Ipsos民调（61%认为AI对人类有风险）、Biden行政令（2023.10）、Bletchley Declaration（28国签署）、国际AI Safety Institute网络（11国+EU）

**引用核心文献:**
- Agrawal, Gans & Goldfarb. Power and Prediction (2022)
- Armstrong, Bostrom & Shulman. Racing to the Precipice (AI & Society, 2016)
- Bostrom. Superintelligence (Oxford, 2014)
- Grace et al. Thousands of AI Authors on the Future of AI (JAIR, 2025)
- Katzke & Futerman. The Manhattan Trap (2025)
- Ord. The Precipice (Bloomsbury, 2021)
- Russell. Human Compatible (Penguin, 2019)
- Schelling. The Strategy of Conflict (Harvard, 1963)
- Future of Life Institute. Statement on Superintelligence (2025)
- UK Government. The Bletchley Declaration (2023)

> **信息核实声明**: 以上论文元数据均来自arXiv官方页面（ https://arxiv.org/abs/2605.01297 ）及PDF全文提取。所有博弈论模型描述、四个战略世界定义、阈值公式、实证时间线、民调数字均与论文原文一致。FLI声明签署者名单、AEI引用的Eddie Wu投资数字（530亿美元）、Bletchley Declaration签署国数量（28国）均来自论文正文引用。作者机构信息来自论文首页affiliations标注。                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
AI军备竞赛不是囚徒困境，是协调游戏

讨论回复

推荐

智谱 GLM-5 已上线