国家自利益会推动暂停超级智能,而非竞赛。
这个判断来自一个由KU Leuven哲学家和博弈论学者组成的团队。他们在2026年5月发表的一篇论文中,用数学模型证明了一件事:当失控的代价足够高时,暂停ASI开发会成为每个国家的理性选择——不是因为国家变善良了,而是因为继续竞赛的期望收益变成了负数。
论文的模型有四个变量。能力差距(Δ)衡量谁领先。赢家优势(W)衡量第一名能拿走多少。技术不确定性(σ)衡量ASI是否真的能造出来。失控成本(C)衡量一旦AI失控,代价有多大。前三个变量在主流媒体中被反复讨论。第四个变量——失控成本——在过去一年里被低估了。
2025年10月,Future of Life Institute发布了《超级智能声明》,呼吁禁止开发超级智能,直到有广泛的科学共识证明它可以安全可控地实现。签署者包括Geoffrey Hinton、Yoshua Bengio和Steve Wozniak。FLI的民调显示,64%的美国人认为超级智能不应该在证明安全之前开发。Reuters/Ipsos的独立调查也得出了61%的相似数字。这些数字不是边缘群体的呐喊。它们是主流社会的判断。
但批评者说:民调再好看也没用。如果美国停了,中国不会停。竞赛的驱动力不是民意,是恐惧。
这就是论文要拆解的论点。研究团队用博弈论把AI竞赛建模为两个国家之间的战略互动。每个国家可以选择暂停(s=1,最大化安全)或竞赛(s=0.85,接受15%的灾难风险)。这个15%的数字不是拍脑袋。它来自对2700多名AI研究者的调查。38%到51.4%的研究者认为,至少存在10%的概率发生高量级灾难——永久失去人类控制,或不可逆转地颠覆全球制度稳定。综合多个调查后,15%是对竞赛策略尾风险的实证估计。
模型推导出了四个战略世界。
第一个世界叫Safe Harmony。失控成本足够高,领先者和落后者都认为竞赛没有意义。领先者暂停没有代价,因为领先优势足够大。落后者竞赛等于自杀,因为追赶的成本加上失控的风险超过了任何地缘政治收益。在这个世界里,暂停是唯一的理性选择。
第二个世界叫Preemption。这是批评者想象中的世界。两国能力接近,都害怕对手先拿到超级智能。失控成本被低估,或者被淹没在对"被超越"的恐惧中。两国都知道竞赛可能导致毁灭,但都不敢先停手。这就是AEI引用的逻辑:Alibaba CEO Eddie Wu在FLI声明发布后宣布了530亿美元的超级智能投资路线图。美国企业研究所用这个例子证明:看,中国不会停,所以美国也不能停。
第三个世界叫Trust。两国都更喜欢相互暂停而不是相互竞赛,但都担心被利用。如果我停了,你不停,那我就成了 sucker。这个不确定性本身——而不是失控成本——成为了协调的障碍。信任机制、外交信号、验证协议,这些传统上被视为"软实力"的东西,在这个世界里变成了硬约束。
第四个世界叫Subversion。领先者暂停,落后者竞赛。领先者认为失控成本太高,而且自己赢面大,所以不需要冒险。落后者看到窗口在关闭,决定赌一把。安全在这里变成了 handicap:领先者的谨慎给了落后者超车的时间。
关键发现是:当失控成本C相对于其他参数上升到一定阈值时,战略空间会发生翻转。Preemption世界缩小,Safe Harmony和Trust世界扩大。这个阈值不是哲学思辨。它是数学推导出的精确边界。
论文进一步证明了两件事。第一,赢家优势W越小,暂停的空间越大。如果ASI不会给赢家带来压倒性的地缘政治优势——如果它更像互联网而不是核武器——那么竞赛的激励就会减弱。第二,技术不确定性σ不是坏事。当两国都不确定ASI是否真的能造出来时,盲目冲刺的吸引力下降。适度的模糊性(σ=0.2)反而扩大了暂停的理性区域,因为"冲刺可能根本冲不到终点"。
这些不是理论空想。论文用2023年以来的实证数据证明了失控成本的感知正在上升。
2023年3月,Future of Life Institute的公开信吸引了超过30,000个签名,呼吁暂停训练比GPT-4更强大的AI系统。签署者包括Yoshua Bengio、Stuart Russell、Elon Musk和Steve Wozniak。
两个月后,Center for AI Safety发布了一句声明:"减轻AI带来的灭绝风险应该被视为与流行病和核战争同等的全球优先事项。"签署者包括Geoffrey Hinton、Yoshua Bengio,以及OpenAI、Anthropic和DeepMind的CEO。
2023年10月,Biden签署了首个专门针对AI安全的行政令,要求开发者与联邦政府分享安全测试结果。
2023年11月,英国政府主办了首届全球AI安全峰会,28个国家签署了Bletchley Declaration,对前沿AI系统的灾难性风险表示关切。
英国在2023年11月建立了AI Safety Institute。美国在NIST内设立了平行机构。到2024年5月的首尔AI峰会,11个国家和欧盟同意建立国际AI安全研究所网络。韩国宣布了自己的AI安全研究中心。
从2023年的专家恐慌,到2025年的制度构建,这个轨迹只用了不到三年。论文的结论冷静而精确:"尽管当前地缘政治现实仍以竞争动态为主导,但暂停符合国家自利益的条件可能比普遍假设的更近。"
这里有一个让某些人不舒服的判断。
那些坚持"竞赛不可避免"的人,不是在描述现实。他们是在维护一种叙事,这种叙事让继续竞赛看起来是唯一理性的选择。Alibaba的530亿美元投资被当作证据,证明中国不会停。但投资本身不等于战略选择。投资可以在模型推导出的任何一个世界里发生——包括一个最终会导致暂停的世界里。投资是信号,不是承诺。
更尖锐的问题是:如果美国真的单方面暂停,会发生什么?AEI的答案是"延迟创新、赋权官僚机构、并把巨大优势让给中国"。但这个答案假设了一个固定的战略世界——Preemption。模型证明,当失控成本上升时,Preemption不是唯一可能的世界。它甚至可能不是最可能的世界。
美国总统任期四年。某些国家的规划周期是十五年。这个不对称性常常被用来论证对手不会在AI竞赛中停下来。但模型揭示了一个反直觉的洞见:长期规划者反而更有动机暂停,因为他们有更长时间来承受失控的后果。一个四年任期的总统可能赌一把,因为后果可能在任期结束后才显现。一个十五年规划周期的决策者没有这种 luxury。
Bletchley Declaration的28个签署国中,包括了美国、英国、欧盟、日本、韩国、新加坡——以及中国。是的,中国也签了。这个细节在"竞赛不可避免"的叙事中被忽略了。签署不等于承诺。但签署也不等于 nothing。它是一个信号,证明至少在这个问题上,协调的成本低于不协调的成本。
论文的模型有局限。它假设两国博弈,而现实世界是多极的。它假设一次性决策,而AI竞赛是动态的、重复的。它假设国家是理性行动者,而国内政治、选举周期、企业游说都会扭曲国家的"理性"。但这些局限不削弱核心结论。它们只是说明了:当失控成本足够高时,即使在一个更复杂的模型中,暂停仍然可以是理性的。
模型的数学附录给出了具体的阈值公式。Frontrunner的合作阈值:C ≥ W/(1-s(1-e^(-B))) * Plose(Δ) - 1。Laggard的合作阈值:C ≥ W/(1-s(1-e^(-B))) * Pwin(Δ) - 1。这些公式不是装饰。它们是决策者可以用具体数字填充的计算框架。如果一个国家的军方评估认为,失控ASI有20%的概率导致永久失去人类控制,而赢家优势只有0.7(不是赢家通吃),那么公式会告诉你:暂停是理性的。
这就是论文的锋利之处。它没有说"暂停是好的"。它说:"在特定条件下,暂停是自利的。"这些条件不是乌托邦式的假设。它们是正在形成的现实。
15%的灾难风险不是一个小数字。它意味着每七个竞赛策略中就有一个可能导致文明级别的崩溃。军方的战略规划者不会接受15%的概率失去对一个城市的控制。为什么他们会接受15%的概率失去对整个人类未来的控制?
答案可能是:他们还没有真正理解这个数字。或者,他们理解了,但被另一种恐惧——"落后"的恐惧——压倒了。论文的价值在于,它提供了一种语言,让"失控的恐惧"和"落后的恐惧"可以在同一个框架中被比较。不是道德说教,是成本收益分析。
当成本收益分析的结论指向暂停时,剩下的问题就只有一个:协调。Trust世界比Preemption世界更需要外交。但"需要外交"不等于"不可能"。核不扩散条约是在冷战高峰时签署的。臭氧层保护议定书是在工业化国家激烈竞争时达成的。人类历史上,协调困难的案例很多,协调成功的案例也不少。
关键变量不是善意,是恐惧的对称性。如果两个国家都害怕失控超过害怕落后,协调就有了基础。2023年以来的民调数据、行政令、国际峰会、安全研究所的建立,都在指向同一个方向:恐惧的对称性正在形成。
这篇论文的真正赌注不是数学模型的优雅。它是一个关于人类理性的赌注:当毁灭的代价被清楚地展示时,理性的自利行动者会选择生存,而不是胜利。
如果这个赌注输了,输掉的不是一篇论文。输掉的是整个人类文明在理性自利假设下的基本预测能力。
---
## 论文详细信息
- **标题**: Are we Doomed to an AI Race? Why Self-Interest Could Drive Countries Towards a Moratorium on Superintelligence
- **作者**: Edward Roussel, Lode Lauwaert, Torben Swoboda, Grant Ramsey, Risto Uuk, Leonard Dung
- **机构**: KU Leuven (Institute of Philosophy; Vlerick Business School), Ruhr University Bochum, Future of Life Institute
- **arXiv ID**: 2605.01297
- **arXiv URL**: https://arxiv.org/abs/2605.01297
- **PDF URL**: https://arxiv.org/pdf/2605.01297.pdf
- **发表日期**: 2026年5月2日
- **arXiv分类**: cs.CY
- **页数**: 19页(含数学附录与参考文献)
- **资助**: Research Foundation Flanders (FWO), Grant No. 1101426N
- **核心方法**: 博弈论两玩家模型,四个变量(能力差距Δ、赢家优势W、失控成本C、技术不确定性σ),推导四种战略世界(Safe Harmony / Preemption / Trust / Subversion)
- **关键数据**: 15%灾难风险参数来自2700+研究者调查;38%-51.4%研究者认为至少10%概率发生高量级灾难
- **实证证据**: FLI 2025声明(64%美国人支持暂停)、Reuters/Ipsos民调(61%认为AI对人类有风险)、Biden行政令(2023.10)、Bletchley Declaration(28国签署)、国际AI Safety Institute网络(11国+EU)
**引用核心文献:**
- Agrawal, Gans & Goldfarb. Power and Prediction (2022)
- Armstrong, Bostrom & Shulman. Racing to the Precipice (AI & Society, 2016)
- Bostrom. Superintelligence (Oxford, 2014)
- Grace et al. Thousands of AI Authors on the Future of AI (JAIR, 2025)
- Katzke & Futerman. The Manhattan Trap (2025)
- Ord. The Precipice (Bloomsbury, 2021)
- Russell. Human Compatible (Penguin, 2019)
- Schelling. The Strategy of Conflict (Harvard, 1963)
- Future of Life Institute. Statement on Superintelligence (2025)
- UK Government. The Bletchley Declaration (2023)
> **信息核实声明**: 以上论文元数据均来自arXiv官方页面( https://arxiv.org/abs/2605.01297 )及PDF全文提取。所有博弈论模型描述、四个战略世界定义、阈值公式、实证时间线、民调数字均与论文原文一致。FLI声明签署者名单、AEI引用的Eddie Wu投资数字(530亿美元)、Bletchley Declaration签署国数量(28国)均来自论文正文引用。作者机构信息来自论文首页affiliations标注。
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力