CSRO：让LLM写代码当"博弈军师"——DeepMind把多智能体黑箱变成可读Python

> 论文：Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models > 作者：Daniel Hennes¹*, Zun Li¹*, John Schultz¹, Marc Lanctot¹ (*Equal contributions) > 机构：Google DeepMind > 链接：https://arxiv.org/abs/2603.10098 > 标签：#多智能体强化学习 #可解释AI #程序合成 #博弈论 #LLM #DeepMind #PSRO

---

一、PSRO的痛点：算出了均衡，却看不懂策略

多智能体强化学习的里程碑算法 PSRO（Policy-Space Response Oracles，Lanctot et al., 2017）用一个优雅的思想解决了博弈均衡计算：迭代维护策略池，每次找一个对当前对手混合策略的最佳响应（best response），加入池中，重新求解均衡，循环往复。

但这个框架有一个致命盲区：best response 的计算依赖深度 RL oracle，产出黑盒神经网络。你拿到了"最优策略"，完全不知道它为什么选这个行动。调试靠猜，信任靠赌，出了问题只能重写训练流程。

> 当 AI 部署到金融竞价、安全博弈、医疗决策等高风险场景时，"性能好但看不懂"非但不是优点，反倒是 liability。

---

二、CSRO的核心转换：从"训练参数"到"生成代码"

DeepMind 团队的解法直截了当：把 best response 的计算从参数优化变成程序合成。

CSRO（Code-Space Response Oracles）用 LLM 替代深度 RL oracle。不再让神经网络拟合 Q 值或策略分布，而是直接让大模型写一段 Python 代码——一个带注释的类，实现 act(obs) 方法，根据观测返回动作。

策略 = 可执行的、带注释的 Python 类。

这一转换带来的连锁效应远超"可解释"这一个维度： 1. 策略天然可读——注释、docstring、变量名直接说明意图 2. 对手建模透明——对手的策略也是代码，你可以直接读到它怎么决策 3. 可组合、可复用——策略非权重矩阵，是可以 import 的模块 4. 人的知识注入——LLM 预训练知识直接参与策略设计

---

三、三种 Oracle 变体：从零样本到进化搜索

3.1 ZeroShot：一枪定胜负

给 LLM 一个精心构造的 prompt，一次性生成完整策略代码。prompt 包含：

游戏规则的自然语言描述
精确的 API 规范（函数签名、返回值类型）
对手策略的描述——可以直接包含对手源代码，或让 LLM 生成高层摘要
明确指令：生成最佳响应策略

ZeroShot 在 RRPS 上 PopReturn 130.2，Leduc 上 40.4，已远超传统 PSRO-IMPALA 基线。

3.2 LinearRefinement：负反馈驱动迭代

ZeroShot 生成后，若策略评估表现不佳（收益 u < 0），将错误反馈给 LLM，让它重新生成。最多迭代 M=10 次，直到收益非负或耗尽预算。

这个简单机制效果惊人：

LinearRefinement(code, Top5) 在 RRPS 上 AggScore 达到 122.1，接近专用 LLM Agent（Gemma 3 27B 每轮调用，AggScore 126.0）
对阵 AlwaysFold 对手的 Leduc 实验中，收益 57.3，远超 PSRO-IMPALA 的 40.7

关键在于：CSRO 用 20-200 次 LLM 调用生成一个可复用的完整策略，而基线 LLM Agent 每局游戏需要 1000 次调用——效率提升 50倍。

3.3 AlphaEvolve：分布式进化搜索

DeepMind 内部的 AlphaEvolve 系统被用来进化策略代码。LLM 作为变异算子，对现有策略代码做搜索/替换式修改，评分函数引导搜索方向，多子种群独立进化。

AlphaEvolve 是收敛性和均衡性的王者：

RRPS：exploitability 仅 25.2（均值），最低可达 3.3
Leduc：exploitability 4.4，对阵 AlwaysCall 收益 110.3（PSRO-IMPALA 只有 57.7）

---

四、实验拆解：两个博弈场景的数据

4.1 Repeated Rock-Paper-Scissors（RRPS）

方法	PopReturn ↑	PopExpl ↓	AggScore ↑
PSRO-IMPALA	−108.9	423.2	−532.1
ZeroShot	130.2	66.7	63.5
LinearRefinement(code, Top5)	159.8	37.7	122.1
AlphaEvolve	50.5	25.2	25.4
基线 LLM Agent (Gemma 3 27B)	193.2	67.2	126.0

PSRO-IMPALA 在需要对手建模的重复博弈中几乎崩溃（AggScore −532.1），所有 CSRO 变体都显著为正。LinearRefinement 在 AggScore 上逼近专用 LLM Agent，调用次数却只有后者的 1/50。

4.2 Repeated Leduc Hold'em Poker

方法	PopReturn ↑	PopExpl ↓	AggScore ↑
PSRO-IMPALA	13.3	58.4	−45.0
CFR+	39.8	0.0	39.8
ZeroShot	40.4	19.6	20.7
LinearRefinement	43.8	9.8	34.0
AlphaEvolve	49.3	4.4	44.9

AlphaEvolve 在 exploitability 上仅次于理论最优的 CFR+（4.4 vs 0.0），但 CFR+ 需要遍历整个博弈树，AlphaEvolve 只需要 LLM 代码生成。对阵 AlwaysCall 这种容易被利用的对手，AlphaEvolve 收益 110.3，是 PSRO-IMPALA 的近两倍。

---

五、生成的策略长什么样？

CSRO 产出的非权重文件，是可以直接读、直接改、直接理解的 Python 代码。

RRPS 最佳策略的核心逻辑：一个由 32 个预测器组成的集成系统，包含高阶 Markov 模型、反应式模型和启发式检测器。专家投票用得分的五次方加权，实现快速果断的对手建模。最精妙的是二阶心智模型——agent 推断对手在用什么模型预测自己，然后反其道行之。

Leduc 最佳策略的核心逻辑：显式的 EV（期望值）计算。agent 估算两个关键量——自己的 equity（摊牌胜率）和对手的 folding probability（弃牌概率），然后做加权平均：若对手弃牌，立即赢得底池；若对手跟注，进入摊牌。代码里直接可以看到：

对阵 AlwaysCall（对手弃牌概率≈0）→ 策略退化为"纯价值下注"，只有强牌才加注
对阵 AlwaysFold（对手弃牌概率≈100%）→ 策略变成"纯诈唬"，手牌强弱不再重要

这种透明适应在黑盒神经网络里不可能直接观察到。

---

六、关键洞察：为什么 LLM 能当好 Oracle？

6.1 预训练知识的战略迁移

LLM 非从零学习博弈论——训练数据里已读过无数次"石头剪刀布怎么赢""扑克怎么诈唬"。CSRO 把它变成在上下文中编排已有知识，而非从零训练参数。

6.2 上下文中的对手抽象

当对手策略池很大时，CSRO 的 prompt 不会塞满所有源代码。它用两种抽象： 1. Top 5 过滤：只保留均衡概率最高的 5 个对手策略 2. LLM 生成的摘要：让另一个 LLM 调用把一组代码策略总结成高层行为描述

消融实验证明：无对手输入时 exploitability 飙升至 614.2，对手条件是成功的关键。

6.3 代码作为策略表示

代码天然具备结构化、组合性和状态管理能力。策略可以维护内部变量（对手建模的统计量）、调用辅助函数（EV 计算）、甚至实例化多个子模块（32 个预测器）。这是神经网络权重无法比拟的优势。

---

七、局限与开放问题

局限： 1. LLM 能力天花板——CSRO 的表现直接绑定于底层 LLM 的代码生成和推理能力 2. API 成本——虽然比每轮调用便宜 50 倍，20-200 次 LLM 调用仍比传统 RL 训练贵 3. 规模化—— Stratego、StarCraft 这种超大状态空间的博弈，如何把复杂状态和对手策略塞进 LLM 上下文，仍是开放工程问题 4. 语法正确率——需要错误处理和代码再生逻辑，并非所有生成都能一次编译通过

但方向已明确：当追求的不是"最强性能"而是"可理解的强性能"时，程序合成 oracle 是 PSRO 框架的合理进化。

---

八、判断：从参数空间到代码空间的范式迁移

CSRO 的真正意义非"用 LLM 替代 RL"，而是重新定义了策略的表示空间。

传统多智能体学习在参数空间里优化——调权重、拟合梯度、收敛到纳什均衡。但参数空间里的一切不可读。

CSRO 把策略空间换成代码空间——在这个空间里，策略是组合式的、注释式的、人类可审阅的。一个专家可以读一段 CSRO 生成的策略代码，判断"这个 bluff 逻辑在高风险场景下是否过于激进"，然后直接改代码——而非重新训练一个神经网络。

在金融竞价、军事推演、医疗资源配置等场景中，"可审计"往往比"最优"更重要。CSRO 把多智能体学习从黑盒优化拉进了可审计的工程领域。

---

参考论文： Hennes, D., Li, Z., Schultz, J., & Lanctot, M. (2026). Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models. *arXiv preprint arXiv:2603.10098*. https://arxiv.org/abs/2603.10098

#深度研究 #多智能体强化学习 #可解释AI #程序合成 #博弈论 #LLM #DeepMind #PSRO #小凯