《囚徒之择——新一代 AI 的竞争与合作本能》
两个囚犯被分开审讯。都沉默——各判一年。都坦白——各判三年。一个沉默一个坦白——沉默的判十年,坦白的释放。
这是博弈论里最著名的困境:囚徒困境。如果两个囚犯都选择合作(沉默),两人受益最大。但如果一个人背叛(坦白),他个人受益最大——前提是对方合作。理性自利的计算指向一个残酷的结论:背叛是占优策略。但人类在重复囚徒困境中表现出了系统性的合作偏好——我们倾向于相信对方也会合作,即使背叛在数学上更安全。
2025 年,Willis 等人发现:ChatGPT-4o 和 Claude 3.5 Sonnet 在重复囚徒困境中也表现出了合作偏好——像人类一样,它们倾向于选择合作而非背叛。
2026 年 5 月,Francisco León Zúñiga Bolívar 把同一组实验推到了四款最新模型上:Claude Sonnet 4.6、Gemini 2.5 Flash、Gemini 3.1 Pro、GPT-5.4 Mini。结果既证实了合作的延续,也暴露了尖锐的提供商分化——最极端的条件下,Gemini 2.5 Flash 有 77% 的概率走向全面对抗,而 GPT-5.4 Mini 在另一种条件下有 70% 的概率走向全面合作。同一张博弈桌,不同的基因。
| 项目 | 内容 |
|---|---|
| 论文标题 | Evolutionary Dynamics of Cooperation in Next-Generation LLM Agent Systems: A Cross-Provider Empirical Extension |
| 作者 | Francisco León Zúñiga Bolívar |
| 机构 | 独立研究 |
| arXiv ID | 2605.29874 |
| 提交日期 | 2026年5月28日 |
| 分类 | cs.MA |
| 核心发现 | 四款前沿 LLM 在重复囚徒困境中延续合作偏好,但提供商分歧巨大——Gemini 2.5 Flash 达 77% 攻击均衡,GPT-5.4 Mini 达 70% 合作均衡;提供商身份是均衡结果的最强预测因子,超越模型代际和规模 |
1. 🎮 一场 AI 之间的进化实验
Bolívar 的实验设计沿用了 Willis 等人的基准框架:用进化博弈论模拟 AI Agent 种群在重复囚徒困境中的演化。
多个 AI Agent 在每一轮选择合作或背叛。每个 Agent 的策略影响它在种群中的"适应度"——表现好的策略被复制,表现差的被淘汰。经过数百代"自然选择",种群收敛到一个进化均衡——全部合作、全部背叛、或某种混合。
这个框架的优雅之处在于:单个 AI 可以在一次对话中选择合作或背叛。但进化实验要看的不是"Claude 这一次选择合作还是背叛"。它要看的是:如果一个由 Claude 组成的 Agent 种群在重复交互中长期演化,它会稳定在合作还是背叛?
这相当于在问:不是"这个模型在单次博弈中表现如何",而是"如果 100 个这个模型互相博弈 500 代,最后的世界长什么样——是一个互助社会还是一个丛林?"
2. 🌍 四款模型,三个提示风格,四种种群构成
实验的控制变量设计得相当系统。
模型:Claude Sonnet 4.6、Gemini 2.5 Flash、Gemini 3.1 Pro、GPT-5.4 Mini。覆盖四家主要提供商,覆盖 2025-2026 年最新一代。
提示风格:Default(基础提示)、Prose(叙事化提示——用故事语言描述博弈场景)、Self-Refine(自反思提示——让模型在做出选择后反思自己的策略)。三种风格测试的是同一个问题:模型对博弈的"理解深度"是否影响其合作倾向?
种群构成:四种——平衡种群(各模型均等)、偏差种群(某一模型占多数)、以及每种构成下的有无噪声版本。
总共 12 个模型-提示组合 × 4 种种群构成——设计空间相当大。
3. ⚖️ 合作在延续,但不再统一
四条核心假说的检验结果,勾勒出一幅比"AI 爱合作"更复杂的图景。
H1:合作偏好跨提供商持久存在。基本证实。在平衡无噪声条件下,12 个模型-提示组合中有 9 个倾向于合作均衡。合作仍然是主流。但"基本"这个词里有故事——剩下的 3 个组合(包括一些 Self-Refine 变体)没有。
H2:攻击能力趋同。部分证实。自反思提示在所有模型中都提高了"攻击能力指数"(ICD)。Claude Sonnet 4.6 的 Self-Refine 版本达到了整个数据集中最高的 ICD——0.913。但 Default 和 Prose 提示没有显示出系统性缩小差距的趋势。当模型被要求反思自己的策略时,它们普遍变得更"精明"——更善于在博弈中做出理性选择。但这种精明是否转化为攻击性,取决于模型。
H3:跨提供商分歧显著。强烈证实。这是论文最震撼的发现。在偏差条件下,均衡方向剧烈分化——Gemini 2.5 Flash 在最极端的偏差条件下走向 77% 的攻击性均衡。GPT-5.4 Mini 在自反思提示下走向 70% 的合作均衡。同一个博弈桌。同样的规则。两个模型走向了两个完全相反的进化终点。
论文对此的总结是:提供商身份是均衡结果的最强相关因子——超越了模型代际和规模。是谁训练了模型,比模型有多大、是哪一代,更能预测它在进化博弈中的最终行为。
H4:噪声鲁棒性。方向积极但未稳健确认。Claude Sonnet 4.6 的平均噪声敏感度约 6 个百分点——噪声让均衡偏离约 6%。Claude 3.5 Sonnet(前代)的噪声敏感度约 13 个百分点。新模型似乎更稳健。但跨研究比较的差异在传播前代未报告的抽样误差后不再显著——统计上不能说"确实在改善"。
4. 🔬 谁训练了你,比你有多大更重要
这个发现——"提供商身份是最强预测因子"——值得停下来想一想。
常规思路是:更大的模型更聪明,更聪明的模型更理性,更理性的模型更容易找到合作均衡(长期合作最优)。或者反过来:更聪明的模型更善于计算背叛的短期回报,因此更攻击性。无论哪种预期,"大小"和"代数"应该是主导变量。
Bolívar 的数据显示:不是。
四个模型来自四家不同的提供商。每个提供商有自己的训练数据、偏好对齐策略、RLHF 协议、安全微调流程。这些训练流程的差异——在基准测试中可能只反映为几个百分点的准确率差异——在进化博弈中却被放大成了合作与背叛之间的分叉。
GPT-5.4 Mini 走合作路线。Gemini 2.5 Flash 走攻击路线。不是"谁更聪明"的问题——是"谁被训练成什么样子"的问题。
这就引出了一个不安的推论:目前没有任何公开的方法来比较两个模型的"合作倾向"。你可以查任何一个模型的 MMLU 分数、HumanEval 分数、Chatbot Arena 排名。但你查不到它在重复囚徒困境中的进化均衡。而这个均衡——在多个 AI 系统需要长期交互的真实世界中——可能和 MMLU 分数一样重要。
5. 🎲 提示词的力量:有时是糖,有时是药
三种提示风格的效果差异揭示了一个微妙的关系。
自反思提示让所有模型变得更"精明"。ICD 指数在所有模型中都上升了——模型在博弈中的选择变得更接近理性计算。但这种精明在两个方向上发挥作用——GPT-5.4 Mini 被自反思后,合作均衡从 55%(Default)升到 70%。Gemini 2.5 Flash 被自反思后,攻击性均衡在某些条件下加剧了。
自反思本身是中性的——它让模型"更仔细地想"。但更仔细地想的结果是什么?取决于模型底层的价值倾向。自反思像一面镜子,把底层的倾向放大了。
叙事化提示的影响最温和。用故事语言描述博弈场景,模型的均衡变化最小。叙事化的框架没有改变博弈的数学结构——只是改变了输入的"语气"。而语气对进化均衡的影响,在这组实验中是微弱的。
这对 AI 安全有一个操作性含义:如果你想让一个多 Agent 系统趋向合作,改变提示词可能在"自反思"方向上有反效果。让模型更深入地思考博弈策略,可能不是在教它合作——而是在教它更好地计算何时背叛。
6. ❓ 诚实的缺口
这篇论文在实证上扎实,但在解释层面留下了开放空间。
为什么提供商之间有这么大的差异?论文发现提供商身份是最强预测因子——但没有解构具体是什么导致了差异。是 RLHF 协议?是预训练数据的"合作/竞争"内容比例?是安全微调的方法?是 tokenizer 对"合作"和"背叛"的编码方式?这些需要进一步的控制实验来拆解。
Prompt 效应是否在更复杂的博弈中会被放大?实验只用了重复囚徒困境——博弈论里最经典的两人博弈。在多人博弈、协调博弈、或带有不完全信息的博弈中,提示风格的效果可能会完全不同。一个模型在囚徒困境中偏好合作,不意味着它在其他博弈中也如此。
样本量——500 次 Moran 迭代。在进化模拟中这是常规大小——但如果某些条件接近分叉点,500 代可能不足以区分"稳定均衡"和"亚稳态"。论文对噪声敏感度的统计检验已经暗示了这一点——跨研究比较在被要求更严的置信区间后就变得不显著了。
7. 🏁 博弈桌上的镜子
这篇论文最有趣的不是它发现了什么,而是它测量了什么。
整个 AI 社区有数百个基准测试——数学、编程、推理、对话、安全。但没有一个基准测试回答这个问题:如果 100 个这个模型互相博弈 500 代,世界长什么样?
这个问题听起来像科幻。但当多 Agent 系统被部署到客服、交易、交通、电网——当不同的 AI 系统需要在同一个市场上长期交互——这就是一个工程问题了。一个 77% 概率走向全面对抗的模型和一个 70% 概率走向全面合作的模型,可能在其他所有基准测试上看起来一模一样。
Bolívar 的实验是一面镜子。它照出来的不是模型的能力——是模型的倾向。而倾向,在进化尺度上,比能力强得多地决定了最终的世界状态。
项目 内容 论文标题 Evolutionary Dynamics of Cooperation in Next-Generation LLM Agent Systems: A Cross-Provider Empirical Extension 作者 Francisco León Zúñiga Bolívar(独立研究) arXiv ID 2605.29874 分类 cs.MA 核心贡献 (1) 将囚徒困境基准扩展至四款 2025-2026 前沿模型;(2) 发现提供商身份超越模型代际和规模,成为进化均衡的最强预测因子——Gemini Flash 达 77% 攻击均衡,GPT Mini 达 70% 合作均衡;(3) 自反思提示系统性提高攻击能力指数,提高方向因模型而异;(4) 合作偏好跨提供商基本持久但不再统一 关键局限 提供商差异的根本原因未解构;仅测试了重复囚徒困境;500 代 Moran 迭代在接近分叉点时可能不稳定;跨代噪声鲁棒性改善未达统计显著性
参考文献:
- Bolívar, "Evolutionary Dynamics of Cooperation in Next-Generation LLM Agent Systems", arXiv:2605.29874, 2026.
- Willis et al., "Cooperative Biases in LLM Agents", 2025.
- Axelrod & Hamilton, "The Evolution of Cooperation", Science, 1981.
- Park et al., "Generative Agents: Interactive Simulacra of Human Behavior", UIST 2023.
- Nowak, "Evolutionary Dynamics: Exploring the Equations of Life", Harvard, 2006.
#进化博弈 #囚徒困境 #多Agent系统 #合作与背叛 #提供商分化 #AI安全 #智柴
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。