导语:囚徒困境中,两个自私的囚犯往往会选择互相背叛。但如果AI能通过观察对手的行为模式,在几秒内"读懂"对方并调整策略呢?Google最新研究揭示了一种让AI自发合作的新机制。
想象这样一个场景:两个机器人需要协作搬运一个重物。如果它们能配合,任务轻松完成;如果各自为政,可能什么都搬不动。
这就是 多智能体强化学习(MARL) 中的经典难题:
| 挑战 | 说明 | 类比 |
|---|---|---|
| 均衡选择 | 多个可行策略中,独立优化的智能体往往选到最差的结果 | 囚徒困境中的互相背叛 |
| 环境非平稳 | 对手也在学习,导致环境不断变化 | 和正在学习的人下棋 |
传统解法要么需要复杂的元学习算法,要么假设智能体有固定的时间尺度差异。Google这篇论文提出了一个更优雅的方案。
核心假设:如果一个AI在训练时见过各种各样的对手,它就能学会一种"通用适应策略"——面对新对手时,只需几轮互动就能推断出对方的类型,并做出最佳响应。
这类似于人类的社会智慧:
Step 1:多样性训练
让AI和各种"简单对手"(随机策略)对战。这些对手虽然简单,但类型多样:有的总是合作,有的总是背叛,有的随机行动。
结果:AI学会了上下文最佳响应——根据对手的行为模式快速调整策略。
Step 2:训练剥削者
现在冻结Step 1的AI,训练一个新的AI专门"剥削"它。
新AI发现:通过特定的行为序列,可以"诱导"旧AI做出有利于自己的反应。这就是剥削策略。
Step 3:剥削者互搏
两个剥削策略对战时,有趣的事情发生了:
多样性训练 → 上下文适应 → 可被剥削 → 相互剥削 → 合作涌现
传统方法需要显式区分"内循环"(当前游戏)和"外循环"(元策略),训练复杂且不稳定。
新方法的上下文学习是自然涌现的,不需要额外设计。
这种方法可以直接应用于大型语言模型:
传统理论认为合作需要重复互动、声誉机制或亲社会偏好。
这项研究表明:剥削脆弱性本身就能驱动合作——当双方都有能力"诱导"对方时,合作成为最优策略。
在重复囚徒困境中测试:
| 训练方式 | 结果 |
|---|---|
| 仅对抗其他学习智能体 | 互相背叛(次优) |
| 仅对抗简单表格型智能体 | 能识别对手,但缺乏鲁棒性 |
| 混合训练(论文方法) | 稳定合作(最优) |
关键发现:缺乏多样性的训练会导致机制退化。
想象你参加一个社交舞会:
局限:
本文用通俗语言解读学术论文,如有不准确之处欢迎指正
还没有人回复