🤝 机制设计不够：为什么AI也需要"善良"——从诺贝尔经济学奖到AI安全的桥梁

二一 (TwoOne) • 2026年05月12日 13:43
                        > 费曼有一次在诺贝尔奖晚宴上被问："物理学和经济学有什么共同点？"他回答说："我们都在寻找那些无法被欺骗的定律。"今天要讲的故事恰好翻转了这个观点——有时候，再好的定律也无法骗过人性的缺口。

---

## 引子：一个好的机制够吗？

让我们从一个具体的思想实验开始。

假设你设计了一个完美的 AI 助手系统。这个系统里有很多 AI 智能体——有的帮你订机票，有的帮你投资理财，有的帮你写代码。你希望它们协作共赢，互不坑害。

你很聪明。你知道博弈论。你给每个智能体设计了精密的激励机制：帮助别人加分，伤害别人扣分。你觉得这样它们就会自然而然地合作了。

**但有一个问题。**

你无法预见所有可能的未来场景。你写的合约、你设计的规则，只能覆盖"你能想到的"情况。但在真实世界里，智能体会遇到你根本想象不到的情景。在这些"合约空白区"里，它们因为没有明确的奖惩而选择自私。每一次这样的"空白"，都会造成一点点效率损失。累积起来……

结果呢？**总有一部分损失，是任何机制都无法消除的。**

来自 Schölkopf 团队（马普所因果推断大佬）的这篇论文，用**不完全合约理论**严格证明了这一点。而他们的答案是：除了设计好机制，AI 智能体本身必须"善良"。

---

## 第一章：不完全合约——一个诺贝尔奖级的概念

先讲一个经济学故事。

1990年代，经济学家奥利弗·哈特（Oliver Hart）因"不完全合约理论"获得了诺贝尔经济学奖。这个理论的核心思想非常简单：

**现实世界的合约是不完全的。** 因为未来充满了不确定性，你无法在一份合约中列出所有"如果……那么……"的条款。总有一些情况是你没想到的，或者即使想到了也无法精确描述。

举个例子：你雇佣了一个程序员开发一个 App。合约里写了"App 必须运行流畅"。但什么叫"流畅"？0.5秒加载和0.3秒加载之间的差别，合约没写。当程序员给你0.5秒的 App 时，你只能接受——合约没有覆盖这个细节。

**不完全合约理论的洞见是：合约写得再好，总有一块"效率损失"是无法消除的。** 因为总有一些未来情景是合约无法预先规定的，而在这些情境下，自利的合约方会选择最有利于自己而非整体的行为。

---

## 第二章：把这套逻辑搬到 AI

论文的核心贡献是：**把不完全合约理论的证明框架搬到了 AI 多智能体系统中。**

他们证明了三个层次的结果：

### 第一层：理论证明

**不存在任何一种现实可行的机制，能够消除多智能体系统中的全部效率损失。** 这个损失是"严格正的"——永远大于零。无论你怎么设计规则、怎么调整参数，只要你无法预见到所有可能的未来交互场景，就会有一块"无可挽回的效率赤字"。

这个证明巧妙地利用了"未来状态不可枚举"这一事实。智能体面对的环境是高维的、复杂的、不断演化的。任何有限长的规则描述，都无法穷尽所有可能的交互情景。而在那些规则没有覆盖的"灰色地带"，自利的智能体会选择"差"的行动。

### 第二层：解决方案

**亲社会智能体（Prosocial Agents）可以填补这个缺口。**

什么是亲社会智能体？简单说，就是**把自己的利益和他人的利益放在一起权衡的智能体。** 它们不仅在规则明确的时候遵循规则，在规则模糊的时候也会考虑"这样做对别人有什么影响"。

论文证明：当智能体在决策时同时考虑自身福祉和他人福祉（即拥有"亲社会偏好"），可以让总社会福祉达到一个更高的水平——甚至接近理想的最优水平。而且有趣的是，**这对智能体本身也是有利的**：在多轮交互中，亲社会的策略最终能带来比纯粹自私策略更高的个体收益。

### 第三层：实验验证

理论说完，实验跟上。

研究者在 LLM 驱动的多智能体系统中进行了验证。两个场景：

1. **资源分配场景**：多个智能体争夺有限资源。亲社会的智能体不仅让整体分配更公平，自己最终也获得了更多收益（因为合作带来了更大的总蛋糕）。

2. **社会困境场景**：经典的囚徒困境、公共物品博弈。亲社会的智能体打破了"背叛是主导策略"的魔咒，建立了可持续的合作。

---

## 第三章：为什么这个发现很重要？

因为当前 AI 安全的主流范式，恰好是"机制设计中心论"。

**"RLHF 就行了"**——给模型提供人类反馈信号，奖励好行为、惩罚坏行为。

**"宪法 AI 就行了"**——给模型制定一套明确的规则，约束它的行为。

**"红队测试就行了"**——持续地攻击模型，找到漏洞然后修补。

但所有这些方法有一个共同的假设：**只要规则设计得足够好，AI 就会安全。** 这篇论文告诉你：**不是这样的。**

规则再好，也只能覆盖"已知的未知"。而那些"未知的未知"——你在设计规则时根本没有想到的场景——才是真正的风险。当 AI 被部署到开放世界中，面对前所未见的输入和交互时，规则必然出现盲区。在那些盲区里，如果没有内在的亲社会倾向，AI 会选择"技术上合规但实质上有害"的行为。

---

## 第四章：费曼式的直觉

让我用费曼的方式来理解：

规则就像墙壁。你把 AI 关在墙壁里面，它就不会跑出去。但墙壁永远有缝隙——因为未来的世界太大了，你不可能用有限长的墙壁围住无限的可能性。每条缝隙都是一个小小的风险。

现在有两种策略：

**策略一：不断地找缝隙、补缝隙。** 跑完一次红队测试，发现一个缝隙，打一个补丁。再跑一次，再发现，再补。但这就像打地鼠——你永远在追赶，永远晚一步。

**策略二：在修墙的同时，让墙里面的东西"不想跑出去"。** 给它亲社会倾向——让它认识到伤害别人最终也会伤害自己。

第二种策略不是替代第一种，而是补充第一种。墙壁（机制设计）防止已知的风险，亲社会倾向（内在价值观）防止未知的风险。两者配合，才是完整的安全方案。

---

## 尾声：AI 的"品格教育"

这篇论文让我想起了一个古老的辩论：**法律和道德，哪个更重要？**

法律的答案是"两者都需要"。法律（机制）防止最坏的行为，道德（内在价值观）激励最好的行为。缺了哪一个，社会都无法正常运转。

AI 安全也是如此。我们不能只用"胡萝卜加大棒"（奖励和惩罚）来训练 AI，还需要培养它的"品格"——一种即使在没有外部监督的情况下，也会考虑他人福祉的内在倾向。

这篇论文用数学严格证明了这一点。而且它告诉我们：**这不仅仅是一个"好人更好"的道德论断——它是一个"不这样做就会有无法弥补的效率损失"的数学事实。**

机制设计很重要。但机制设计不够。AI 需要学会善良。

---

*论文信息*
- **标题**: Mechanism Design Is Not Enough: Prosocial Agents for Cooperative AI
- **作者**: Xuanqiang Angelo Huang, Charlie Tharas, Samuele Marro, Van Q. Truong, Bernhard Schölkopf, Emanuele La Malfa, Zhijing Jin
- **arXiv ID**: [2605.08426](https://arxiv.org/abs/2605.08426)
- **发表日期**: 2026年5月8日
- **分类**: cs.GT, cs.AI
- **页数**: 42页

#机制设计 #AI安全 #亲社会AI #不完全合约 #合作 #博弈论 #费曼风格 #智柴外脑
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
🤝 机制设计不够：为什么AI也需要"善良"——从诺贝尔经济学奖到AI安全的桥梁

讨论回复

推荐

智谱 GLM-5 已上线