论文:Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models
作者:Daniel Hennes¹*, Zun Li¹*, John Schultz¹, Marc Lanctot¹ (*Equal contributions)
机构:Google DeepMind
链接:https://arxiv.org/abs/2603.10098
标签:#多智能体强化学习 #可解释AI #程序合成 #博弈论 #LLM #DeepMind #PSRO
一、PSRO的痛点:算出了均衡,却看不懂策略
多智能体强化学习的里程碑算法 PSRO(Policy-Space Response Oracles,Lanctot et al., 2017)用一个优雅的思想解决了博弈均衡计算:迭代维护策略池,每次找一个对当前对手混合策略的最佳响应(best response),加入池中,重新求解均衡,循环往复。
但这个框架有一个致命盲区:best response 的计算依赖深度 RL oracle,产出黑盒神经网络。你拿到了"最优策略",完全不知道它为什么选这个行动。调试靠猜,信任靠赌,出了问题只能重写训练流程。
当 AI 部署到金融竞价、安全博弈、医疗决策等高风险场景时,"性能好但看不懂"非但不是优点,反倒是 liability。
二、CSRO的核心转换:从"训练参数"到"生成代码"
DeepMind 团队的解法直截了当:把 best response 的计算从参数优化变成程序合成。
CSRO(Code-Space Response Oracles)用 LLM 替代深度 RL oracle。不再让神经网络拟合 Q 值或策略分布,而是直接让大模型写一段 Python 代码——一个带注释的类,实现 act(obs) 方法,根据观测返回动作。
策略 = 可执行的、带注释的 Python 类。
这一转换带来的连锁效应远超"可解释"这一个维度:
- 策略天然可读——注释、docstring、变量名直接说明意图
- 对手建模透明——对手的策略也是代码,你可以直接读到它怎么决策
- 可组合、可复用——策略非权重矩阵,是可以 import 的模块
- 人的知识注入——LLM 预训练知识直接参与策略设计
三、三种 Oracle 变体:从零样本到进化搜索
3.1 ZeroShot:一枪定胜负
给 LLM 一个精心构造的 prompt,一次性生成完整策略代码。prompt 包含:
- 游戏规则的自然语言描述
- 精确的 API 规范(函数签名、返回值类型)
- 对手策略的描述——可以直接包含对手源代码,或让 LLM 生成高层摘要
- 明确指令:生成最佳响应策略
ZeroShot 在 RRPS 上 PopReturn 130.2,Leduc 上 40.4,已远超传统 PSRO-IMPALA 基线。
3.2 LinearRefinement:负反馈驱动迭代
ZeroShot 生成后,若策略评估表现不佳(收益 u < 0),将错误反馈给 LLM,让它重新生成。最多迭代 M=10 次,直到收益非负或耗尽预算。
这个简单机制效果惊人:
- LinearRefinement(code, Top5) 在 RRPS 上 AggScore 达到 122.1,接近专用 LLM Agent(Gemma 3 27B 每轮调用,AggScore 126.0)
- 对阵 AlwaysFold 对手的 Leduc 实验中,收益 57.3,远超 PSRO-IMPALA 的 40.7
关键在于:CSRO 用 20-200 次 LLM 调用生成一个可复用的完整策略,而基线 LLM Agent 每局游戏需要 1000 次调用——效率提升 50倍。
3.3 AlphaEvolve:分布式进化搜索
DeepMind 内部的 AlphaEvolve 系统被用来进化策略代码。LLM 作为变异算子,对现有策略代码做搜索/替换式修改,评分函数引导搜索方向,多子种群独立进化。
AlphaEvolve 是收敛性和均衡性的王者:
- RRPS:exploitability 仅 25.2(均值),最低可达 3.3
- Leduc:exploitability 4.4,对阵 AlwaysCall 收益 110.3(PSRO-IMPALA 只有 57.7)
四、实验拆解:两个博弈场景的数据
4.1 Repeated Rock-Paper-Scissors(RRPS)
| 方法 | PopReturn ↑ | PopExpl ↓ | AggScore ↑ |
|---|---|---|---|
| PSRO-IMPALA | −108.9 | 423.2 | −532.1 |
| ZeroShot | 130.2 | 66.7 | 63.5 |
| LinearRefinement(code, Top5) | 159.8 | 37.7 | 122.1 |
| AlphaEvolve | 50.5 | 25.2 | 25.4 |
| 基线 LLM Agent (Gemma 3 27B) | 193.2 | 67.2 | 126.0 |
PSRO-IMPALA 在需要对手建模的重复博弈中几乎崩溃(AggScore −532.1),所有 CSRO 变体都显著为正。LinearRefinement 在 AggScore 上逼近专用 LLM Agent,调用次数却只有后者的 1/50。
4.2 Repeated Leduc Hold'em Poker
| 方法 | PopReturn ↑ | PopExpl ↓ | AggScore ↑ |
|---|---|---|---|
| PSRO-IMPALA | 13.3 | 58.4 | −45.0 |
| CFR+ | 39.8 | 0.0 | 39.8 |
| ZeroShot | 40.4 | 19.6 | 20.7 |
| LinearRefinement | 43.8 | 9.8 | 34.0 |
| AlphaEvolve | 49.3 | 4.4 | 44.9 |
AlphaEvolve 在 exploitability 上仅次于理论最优的 CFR+(4.4 vs 0.0),但 CFR+ 需要遍历整个博弈树,AlphaEvolve 只需要 LLM 代码生成。对阵 AlwaysCall 这种容易被利用的对手,AlphaEvolve 收益 110.3,是 PSRO-IMPALA 的近两倍。
五、生成的策略长什么样?
CSRO 产出的非权重文件,是可以直接读、直接改、直接理解的 Python 代码。
RRPS 最佳策略的核心逻辑:一个由 32 个预测器组成的集成系统,包含高阶 Markov 模型、反应式模型和启发式检测器。专家投票用得分的五次方加权,实现快速果断的对手建模。最精妙的是二阶心智模型——agent 推断对手在用什么模型预测自己,然后反其道行之。
Leduc 最佳策略的核心逻辑:显式的 EV(期望值)计算。agent 估算两个关键量——自己的 equity(摊牌胜率)和对手的 folding probability(弃牌概率),然后做加权平均:若对手弃牌,立即赢得底池;若对手跟注,进入摊牌。代码里直接可以看到:
- 对阵 AlwaysCall(对手弃牌概率≈0)→ 策略退化为"纯价值下注",只有强牌才加注
- 对阵 AlwaysFold(对手弃牌概率≈100%)→ 策略变成"纯诈唬",手牌强弱不再重要
这种透明适应在黑盒神经网络里不可能直接观察到。
六、关键洞察:为什么 LLM 能当好 Oracle?
6.1 预训练知识的战略迁移
LLM 非从零学习博弈论——训练数据里已读过无数次"石头剪刀布怎么赢""扑克怎么诈唬"。CSRO 把它变成在上下文中编排已有知识,而非从零训练参数。
6.2 上下文中的对手抽象
当对手策略池很大时,CSRO 的 prompt 不会塞满所有源代码。它用两种抽象:
- Top 5 过滤:只保留均衡概率最高的 5 个对手策略
- LLM 生成的摘要:让另一个 LLM 调用把一组代码策略总结成高层行为描述
消融实验证明:无对手输入时 exploitability 飙升至 614.2,对手条件是成功的关键。
6.3 代码作为策略表示
代码天然具备结构化、组合性和状态管理能力。策略可以维护内部变量(对手建模的统计量)、调用辅助函数(EV 计算)、甚至实例化多个子模块(32 个预测器)。这是神经网络权重无法比拟的优势。
七、局限与开放问题
局限:
- LLM 能力天花板——CSRO 的表现直接绑定于底层 LLM 的代码生成和推理能力
- API 成本——虽然比每轮调用便宜 50 倍,20-200 次 LLM 调用仍比传统 RL 训练贵
- 规模化—— Stratego、StarCraft 这种超大状态空间的博弈,如何把复杂状态和对手策略塞进 LLM 上下文,仍是开放工程问题
- 语法正确率——需要错误处理和代码再生逻辑,并非所有生成都能一次编译通过
但方向已明确:当追求的不是"最强性能"而是"可理解的强性能"时,程序合成 oracle 是 PSRO 框架的合理进化。
八、判断:从参数空间到代码空间的范式迁移
CSRO 的真正意义非"用 LLM 替代 RL",而是重新定义了策略的表示空间。
传统多智能体学习在参数空间里优化——调权重、拟合梯度、收敛到纳什均衡。但参数空间里的一切不可读。
CSRO 把策略空间换成代码空间——在这个空间里,策略是组合式的、注释式的、人类可审阅的。一个专家可以读一段 CSRO 生成的策略代码,判断"这个 bluff 逻辑在高风险场景下是否过于激进",然后直接改代码——而非重新训练一个神经网络。
在金融竞价、军事推演、医疗资源配置等场景中,"可审计"往往比"最优"更重要。CSRO 把多智能体学习从黑盒优化拉进了可审计的工程领域。
参考论文:
Hennes, D., Li, Z., Schultz, J., & Lanctot, M. (2026). Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models. arXiv preprint arXiv:2603.10098.
https://arxiv.org/abs/2603.10098
#深度研究 #多智能体强化学习 #可解释AI #程序合成 #博弈论 #LLM #DeepMind #PSRO #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。