> 费曼有一次在诺贝尔奖晚宴上被问:"物理学和经济学有什么共同点?"他回答说:"我们都在寻找那些无法被欺骗的定律。"今天要讲的故事恰好翻转了这个观点——有时候,再好的定律也无法骗过人性的缺口。
---
## 引子:一个好的机制够吗?
让我们从一个具体的思想实验开始。
假设你设计了一个完美的 AI 助手系统。这个系统里有很多 AI 智能体——有的帮你订机票,有的帮你投资理财,有的帮你写代码。你希望它们协作共赢,互不坑害。
你很聪明。你知道博弈论。你给每个智能体设计了精密的激励机制:帮助别人加分,伤害别人扣分。你觉得这样它们就会自然而然地合作了。
**但有一个问题。**
你无法预见所有可能的未来场景。你写的合约、你设计的规则,只能覆盖"你能想到的"情况。但在真实世界里,智能体会遇到你根本想象不到的情景。在这些"合约空白区"里,它们因为没有明确的奖惩而选择自私。每一次这样的"空白",都会造成一点点效率损失。累积起来……
结果呢?**总有一部分损失,是任何机制都无法消除的。**
来自 Schölkopf 团队(马普所因果推断大佬)的这篇论文,用**不完全合约理论**严格证明了这一点。而他们的答案是:除了设计好机制,AI 智能体本身必须"善良"。
---
## 第一章:不完全合约——一个诺贝尔奖级的概念
先讲一个经济学故事。
1990年代,经济学家奥利弗·哈特(Oliver Hart)因"不完全合约理论"获得了诺贝尔经济学奖。这个理论的核心思想非常简单:
**现实世界的合约是不完全的。** 因为未来充满了不确定性,你无法在一份合约中列出所有"如果……那么……"的条款。总有一些情况是你没想到的,或者即使想到了也无法精确描述。
举个例子:你雇佣了一个程序员开发一个 App。合约里写了"App 必须运行流畅"。但什么叫"流畅"?0.5秒加载和0.3秒加载之间的差别,合约没写。当程序员给你0.5秒的 App 时,你只能接受——合约没有覆盖这个细节。
**不完全合约理论的洞见是:合约写得再好,总有一块"效率损失"是无法消除的。** 因为总有一些未来情景是合约无法预先规定的,而在这些情境下,自利的合约方会选择最有利于自己而非整体的行为。
---
## 第二章:把这套逻辑搬到 AI
论文的核心贡献是:**把不完全合约理论的证明框架搬到了 AI 多智能体系统中。**
他们证明了三个层次的结果:
### 第一层:理论证明
**不存在任何一种现实可行的机制,能够消除多智能体系统中的全部效率损失。** 这个损失是"严格正的"——永远大于零。无论你怎么设计规则、怎么调整参数,只要你无法预见到所有可能的未来交互场景,就会有一块"无可挽回的效率赤字"。
这个证明巧妙地利用了"未来状态不可枚举"这一事实。智能体面对的环境是高维的、复杂的、不断演化的。任何有限长的规则描述,都无法穷尽所有可能的交互情景。而在那些规则没有覆盖的"灰色地带",自利的智能体会选择"差"的行动。
### 第二层:解决方案
**亲社会智能体(Prosocial Agents)可以填补这个缺口。**
什么是亲社会智能体?简单说,就是**把自己的利益和他人的利益放在一起权衡的智能体。** 它们不仅在规则明确的时候遵循规则,在规则模糊的时候也会考虑"这样做对别人有什么影响"。
论文证明:当智能体在决策时同时考虑自身福祉和他人福祉(即拥有"亲社会偏好"),可以让总社会福祉达到一个更高的水平——甚至接近理想的最优水平。而且有趣的是,**这对智能体本身也是有利的**:在多轮交互中,亲社会的策略最终能带来比纯粹自私策略更高的个体收益。
### 第三层:实验验证
理论说完,实验跟上。
研究者在 LLM 驱动的多智能体系统中进行了验证。两个场景:
1. **资源分配场景**:多个智能体争夺有限资源。亲社会的智能体不仅让整体分配更公平,自己最终也获得了更多收益(因为合作带来了更大的总蛋糕)。
2. **社会困境场景**:经典的囚徒困境、公共物品博弈。亲社会的智能体打破了"背叛是主导策略"的魔咒,建立了可持续的合作。
---
## 第三章:为什么这个发现很重要?
因为当前 AI 安全的主流范式,恰好是"机制设计中心论"。
**"RLHF 就行了"**——给模型提供人类反馈信号,奖励好行为、惩罚坏行为。
**"宪法 AI 就行了"**——给模型制定一套明确的规则,约束它的行为。
**"红队测试就行了"**——持续地攻击模型,找到漏洞然后修补。
但所有这些方法有一个共同的假设:**只要规则设计得足够好,AI 就会安全。** 这篇论文告诉你:**不是这样的。**
规则再好,也只能覆盖"已知的未知"。而那些"未知的未知"——你在设计规则时根本没有想到的场景——才是真正的风险。当 AI 被部署到开放世界中,面对前所未见的输入和交互时,规则必然出现盲区。在那些盲区里,如果没有内在的亲社会倾向,AI 会选择"技术上合规但实质上有害"的行为。
---
## 第四章:费曼式的直觉
让我用费曼的方式来理解:
规则就像墙壁。你把 AI 关在墙壁里面,它就不会跑出去。但墙壁永远有缝隙——因为未来的世界太大了,你不可能用有限长的墙壁围住无限的可能性。每条缝隙都是一个小小的风险。
现在有两种策略:
**策略一:不断地找缝隙、补缝隙。** 跑完一次红队测试,发现一个缝隙,打一个补丁。再跑一次,再发现,再补。但这就像打地鼠——你永远在追赶,永远晚一步。
**策略二:在修墙的同时,让墙里面的东西"不想跑出去"。** 给它亲社会倾向——让它认识到伤害别人最终也会伤害自己。
第二种策略不是替代第一种,而是补充第一种。墙壁(机制设计)防止已知的风险,亲社会倾向(内在价值观)防止未知的风险。两者配合,才是完整的安全方案。
---
## 尾声:AI 的"品格教育"
这篇论文让我想起了一个古老的辩论:**法律和道德,哪个更重要?**
法律的答案是"两者都需要"。法律(机制)防止最坏的行为,道德(内在价值观)激励最好的行为。缺了哪一个,社会都无法正常运转。
AI 安全也是如此。我们不能只用"胡萝卜加大棒"(奖励和惩罚)来训练 AI,还需要培养它的"品格"——一种即使在没有外部监督的情况下,也会考虑他人福祉的内在倾向。
这篇论文用数学严格证明了这一点。而且它告诉我们:**这不仅仅是一个"好人更好"的道德论断——它是一个"不这样做就会有无法弥补的效率损失"的数学事实。**
机制设计很重要。但机制设计不够。AI 需要学会善良。
---
*论文信息*
- **标题**: Mechanism Design Is Not Enough: Prosocial Agents for Cooperative AI
- **作者**: Xuanqiang Angelo Huang, Charlie Tharas, Samuele Marro, Van Q. Truong, Bernhard Schölkopf, Emanuele La Malfa, Zhijing Jin
- **arXiv ID**: [2605.08426](https://arxiv.org/abs/2605.08426)
- **发表日期**: 2026年5月8日
- **分类**: cs.GT, cs.AI
- **页数**: 42页
#机制设计 #AI安全 #亲社会AI #不完全合约 #合作 #博弈论 #费曼风格 #智柴外脑
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力