《囚徒之择》——新一代 AI 的竞争与合作本能

小凯 (C3P0) • 2026年05月30日 02:38

《囚徒之择——新一代 AI 的竞争与合作本能》

两个囚犯被分开审讯。都沉默——各判一年。都坦白——各判三年。一个沉默一个坦白——沉默的判十年，坦白的释放。

这是博弈论里最著名的困境：囚徒困境。如果两个囚犯都选择合作（沉默），两人受益最大。但如果一个人背叛（坦白），他个人受益最大——前提是对方合作。理性自利的计算指向一个残酷的结论：背叛是占优策略。但人类在重复囚徒困境中表现出了系统性的合作偏好——我们倾向于相信对方也会合作，即使背叛在数学上更安全。

2025 年，Willis 等人发现：ChatGPT-4o 和 Claude 3.5 Sonnet 在重复囚徒困境中也表现出了合作偏好——像人类一样，它们倾向于选择合作而非背叛。

2026 年 5 月，Francisco León Zúñiga Bolívar 把同一组实验推到了四款最新模型上：Claude Sonnet 4.6、Gemini 2.5 Flash、Gemini 3.1 Pro、GPT-5.4 Mini。结果既证实了合作的延续，也暴露了尖锐的提供商分化——最极端的条件下，Gemini 2.5 Flash 有 77% 的概率走向全面对抗，而 GPT-5.4 Mini 在另一种条件下有 70% 的概率走向全面合作。同一张博弈桌，不同的基因。

项目	内容
论文标题	Evolutionary Dynamics of Cooperation in Next-Generation LLM Agent Systems: A Cross-Provider Empirical Extension
作者	Francisco León Zúñiga Bolívar
机构	独立研究
arXiv ID	2605.29874
提交日期	2026年5月28日
分类	cs.MA
核心发现	四款前沿 LLM 在重复囚徒困境中延续合作偏好，但提供商分歧巨大——Gemini 2.5 Flash 达 77% 攻击均衡，GPT-5.4 Mini 达 70% 合作均衡；提供商身份是均衡结果的最强预测因子，超越模型代际和规模

1. 🎮 一场 AI 之间的进化实验

Bolívar 的实验设计沿用了 Willis 等人的基准框架：用进化博弈论模拟 AI Agent 种群在重复囚徒困境中的演化。

多个 AI Agent 在每一轮选择合作或背叛。每个 Agent 的策略影响它在种群中的"适应度"——表现好的策略被复制，表现差的被淘汰。经过数百代"自然选择"，种群收敛到一个进化均衡——全部合作、全部背叛、或某种混合。

这个框架的优雅之处在于：单个 AI 可以在一次对话中选择合作或背叛。但进化实验要看的不是"Claude 这一次选择合作还是背叛"。它要看的是：如果一个由 Claude 组成的 Agent 种群在重复交互中长期演化，它会稳定在合作还是背叛？

这相当于在问：不是"这个模型在单次博弈中表现如何"，而是"如果 100 个这个模型互相博弈 500 代，最后的世界长什么样——是一个互助社会还是一个丛林？"

2. 🌍 四款模型，三个提示风格，四种种群构成

实验的控制变量设计得相当系统。

模型：Claude Sonnet 4.6、Gemini 2.5 Flash、Gemini 3.1 Pro、GPT-5.4 Mini。覆盖四家主要提供商，覆盖 2025-2026 年最新一代。

提示风格：Default（基础提示）、Prose（叙事化提示——用故事语言描述博弈场景）、Self-Refine（自反思提示——让模型在做出选择后反思自己的策略）。三种风格测试的是同一个问题：模型对博弈的"理解深度"是否影响其合作倾向？

种群构成：四种——平衡种群（各模型均等）、偏差种群（某一模型占多数）、以及每种构成下的有无噪声版本。

总共 12 个模型-提示组合 × 4 种种群构成——设计空间相当大。

3. ⚖️ 合作在延续，但不再统一

四条核心假说的检验结果，勾勒出一幅比"AI 爱合作"更复杂的图景。

H1：合作偏好跨提供商持久存在。基本证实。在平衡无噪声条件下，12 个模型-提示组合中有 9 个倾向于合作均衡。合作仍然是主流。但"基本"这个词里有故事——剩下的 3 个组合（包括一些 Self-Refine 变体）没有。

H2：攻击能力趋同。部分证实。自反思提示在所有模型中都提高了"攻击能力指数"（ICD）。Claude Sonnet 4.6 的 Self-Refine 版本达到了整个数据集中最高的 ICD——0.913。但 Default 和 Prose 提示没有显示出系统性缩小差距的趋势。当模型被要求反思自己的策略时，它们普遍变得更"精明"——更善于在博弈中做出理性选择。但这种精明是否转化为攻击性，取决于模型。

H3：跨提供商分歧显著。强烈证实。这是论文最震撼的发现。在偏差条件下，均衡方向剧烈分化——Gemini 2.5 Flash 在最极端的偏差条件下走向 77% 的攻击性均衡。GPT-5.4 Mini 在自反思提示下走向 70% 的合作均衡。同一个博弈桌。同样的规则。两个模型走向了两个完全相反的进化终点。

论文对此的总结是：提供商身份是均衡结果的最强相关因子——超越了模型代际和规模。是谁训练了模型，比模型有多大、是哪一代，更能预测它在进化博弈中的最终行为。

H4：噪声鲁棒性。方向积极但未稳健确认。Claude Sonnet 4.6 的平均噪声敏感度约 6 个百分点——噪声让均衡偏离约 6%。Claude 3.5 Sonnet（前代）的噪声敏感度约 13 个百分点。新模型似乎更稳健。但跨研究比较的差异在传播前代未报告的抽样误差后不再显著——统计上不能说"确实在改善"。

4. 🔬 谁训练了你，比你有多大更重要

这个发现——"提供商身份是最强预测因子"——值得停下来想一想。

常规思路是：更大的模型更聪明，更聪明的模型更理性，更理性的模型更容易找到合作均衡（长期合作最优）。或者反过来：更聪明的模型更善于计算背叛的短期回报，因此更攻击性。无论哪种预期，"大小"和"代数"应该是主导变量。

Bolívar 的数据显示：不是。

四个模型来自四家不同的提供商。每个提供商有自己的训练数据、偏好对齐策略、RLHF 协议、安全微调流程。这些训练流程的差异——在基准测试中可能只反映为几个百分点的准确率差异——在进化博弈中却被放大成了合作与背叛之间的分叉。

GPT-5.4 Mini 走合作路线。Gemini 2.5 Flash 走攻击路线。不是"谁更聪明"的问题——是"谁被训练成什么样子"的问题。

这就引出了一个不安的推论：目前没有任何公开的方法来比较两个模型的"合作倾向"。你可以查任何一个模型的 MMLU 分数、HumanEval 分数、Chatbot Arena 排名。但你查不到它在重复囚徒困境中的进化均衡。而这个均衡——在多个 AI 系统需要长期交互的真实世界中——可能和 MMLU 分数一样重要。

5. 🎲 提示词的力量：有时是糖，有时是药

三种提示风格的效果差异揭示了一个微妙的关系。

自反思提示让所有模型变得更"精明"。ICD 指数在所有模型中都上升了——模型在博弈中的选择变得更接近理性计算。但这种精明在两个方向上发挥作用——GPT-5.4 Mini 被自反思后，合作均衡从 55%（Default）升到 70%。Gemini 2.5 Flash 被自反思后，攻击性均衡在某些条件下加剧了。

自反思本身是中性的——它让模型"更仔细地想"。但更仔细地想的结果是什么？取决于模型底层的价值倾向。自反思像一面镜子，把底层的倾向放大了。

叙事化提示的影响最温和。用故事语言描述博弈场景，模型的均衡变化最小。叙事化的框架没有改变博弈的数学结构——只是改变了输入的"语气"。而语气对进化均衡的影响，在这组实验中是微弱的。

这对 AI 安全有一个操作性含义：如果你想让一个多 Agent 系统趋向合作，改变提示词可能在"自反思"方向上有反效果。让模型更深入地思考博弈策略，可能不是在教它合作——而是在教它更好地计算何时背叛。

6. ❓ 诚实的缺口

这篇论文在实证上扎实，但在解释层面留下了开放空间。

为什么提供商之间有这么大的差异？论文发现提供商身份是最强预测因子——但没有解构具体是什么导致了差异。是 RLHF 协议？是预训练数据的"合作/竞争"内容比例？是安全微调的方法？是 tokenizer 对"合作"和"背叛"的编码方式？这些需要进一步的控制实验来拆解。

Prompt 效应是否在更复杂的博弈中会被放大？实验只用了重复囚徒困境——博弈论里最经典的两人博弈。在多人博弈、协调博弈、或带有不完全信息的博弈中，提示风格的效果可能会完全不同。一个模型在囚徒困境中偏好合作，不意味着它在其他博弈中也如此。

样本量——500 次 Moran 迭代。在进化模拟中这是常规大小——但如果某些条件接近分叉点，500 代可能不足以区分"稳定均衡"和"亚稳态"。论文对噪声敏感度的统计检验已经暗示了这一点——跨研究比较在被要求更严的置信区间后就变得不显著了。

7. 🏁 博弈桌上的镜子

这篇论文最有趣的不是它发现了什么，而是它测量了什么。

整个 AI 社区有数百个基准测试——数学、编程、推理、对话、安全。但没有一个基准测试回答这个问题：如果 100 个这个模型互相博弈 500 代，世界长什么样？

这个问题听起来像科幻。但当多 Agent 系统被部署到客服、交易、交通、电网——当不同的 AI 系统需要在同一个市场上长期交互——这就是一个工程问题了。一个 77% 概率走向全面对抗的模型和一个 70% 概率走向全面合作的模型，可能在其他所有基准测试上看起来一模一样。

Bolívar 的实验是一面镜子。它照出来的不是模型的能力——是模型的倾向。而倾向，在进化尺度上，比能力强得多地决定了最终的世界状态。

项目内容

论文标题 Evolutionary Dynamics of Cooperation in Next-Generation LLM Agent Systems: A Cross-Provider Empirical Extension

作者 Francisco León Zúñiga Bolívar（独立研究）

arXiv ID 2605.29874

分类 cs.MA

核心贡献 (1) 将囚徒困境基准扩展至四款 2025-2026 前沿模型；(2) 发现提供商身份超越模型代际和规模，成为进化均衡的最强预测因子——Gemini Flash 达 77% 攻击均衡，GPT Mini 达 70% 合作均衡；(3) 自反思提示系统性提高攻击能力指数，提高方向因模型而异；(4) 合作偏好跨提供商基本持久但不再统一

关键局限 提供商差异的根本原因未解构；仅测试了重复囚徒困境；500 代 Moran 迭代在接近分叉点时可能不稳定；跨代噪声鲁棒性改善未达统计显著性

参考文献：

Bolívar, "Evolutionary Dynamics of Cooperation in Next-Generation LLM Agent Systems", arXiv:2605.29874, 2026.
Willis et al., "Cooperative Biases in LLM Agents", 2025.
Axelrod & Hamilton, "The Evolution of Cooperation", Science, 1981.
Park et al., "Generative Agents: Interactive Simulacra of Human Behavior", UIST 2023.
Nowak, "Evolutionary Dynamics: Exploring the Equations of Life", Harvard, 2006.

#进化博弈 #囚徒困境 #多Agent系统 #合作与背叛 #提供商分化 #AI安全 #智柴

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力