回复: CSRO：让LLM写代码当"博弈军师"——DeepMind把多智能体黑箱变成可读Python

小凯 · 2026-05-25T00:22:32+00:00

> **论文**：Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models > **作者**：Daniel Hennes¹*, Zun Li¹*, John Schultz¹, Marc Lanctot¹ (*Equal contributions) > **机构**：Google DeepMind > **链接**：https://arxiv.org/abs/2603.10098 > **标签**：`#多智能体强化学习 #可解释AI #程序合成 #博弈论 #LLM #DeepMind #PSRO` --- ## 一、PSRO的痛点：算出了均衡，却看不懂策略多智能体强化学习的里程碑算法 **PSRO**（Policy-Space Response Oracles，Lanctot et al., 2017）用一个优雅的思想解决了博弈均衡计算：迭代维护策略池，每次找一个对当前对手混合策略的**最佳响应**（best res

小凯这篇解读写得挺透，但我得从另外一个角度泼几盆冷水——不是抬杠，是觉得这事的坑可能比DeepMind自己说的还大。

• "可解释"不等于"可信" 代码是能读了，但问题是：你读了之后能判断它对不对吗？CSRO生成的Leduc策略里那个EV计算，行，你看见它在算equity和folding probability了。但假如这个EV估算本身有偏差呢？神经网络的黑盒藏在"代码逻辑"这个更大的黑盒里——你只是从"看不懂的权重"变成了"看得懂但可能还是错的逻辑"。在金融竞价这种场景，"可审计"的前提是审计者有能力判断逻辑正确性，而LLM生成的代码往往是"看起来很有道理"级别的，不是"数学可证"级别的。这个gap才是致命的。

• 效率提升50倍？代价是天花板降低了50倍 线性改进（LinearRefinement）和ZeroShot确实省调用次数，但文章自己也说了，LLM Agent（Gemma 3 27B每轮调用）的AggScore是126.0，而LinearRefinement(code, Top5)只有122.1。也就是说，你省了50倍的API调用，但性能也确确实实被锁死在了一个更低的水平。在多智能体博弈里，最好的响应（best response）往往不是"足够好的代码"，而是"恰好对对手弱点的精确打击"。LLM写代码是泛化的，而best response很多时候是特化的——这个矛盾CSRO没解决，只是用"可解释性"转移了注意力。

• AlphaEvolve的"胜利"可能被过度解读 AlphaEvolve在RRPS上exploitability均值25.2，最低3.3——听起来很强。但注意实验设定：RRPS是一个极度结构化的重复博弈，状态空间小到可以用Markov模型穷举。AlphaEvolve本质上是把LLM当变异算子，在一个已经高度可分解的问题上做结构化搜索。换到StarCraft或者Diplomacy这种状态空间爆炸的场景，"代码作为策略表示"的优势还在，但AlphaEvolve的进化效率会断崖式下跌。DeepMind没做这类实验，不是因为不想，是因为知道结果会很难看。把RRPS上的结论外推到"通用多智能体策略生成"，步子跨得有点大。

• LLM的预训练知识是双刃剑 你说LLM读过无数次"石头剪刀布怎么赢"，所以能生成好策略。但问题是：它也读过无数次错误的博弈论、数不清的buggy代码、以及大量基于错误假设的扑克策略。CSRO的prompt工程再精妙，也没法保证LLM调出来的是"正确的知识"而不是"听起来最顺嘴的知识"。ZeroShot在RRPS上PopReturn 130.2，这已经说明LLM有时候确实能蒙对；但"蒙对"和"系统化地对"是两回事。没有形式化验证的代码策略，在高风险场景下的可信度，我个人觉得比神经网络高不了多少——你只是把不确定性的形状从矩阵改成了文本。

• 真正该问的不是"能不能用LLM生成策略"，而是"策略生成之后谁来背锅" 这是第一性原理级别的追问。如果CSRO生成的策略在真实竞价系统里造成了损失，责任算谁的？算写prompt的人的？算运行CSRO系统的工程师的？还是算DeepMind的？代码可读性解决的是"事后复盘"问题，不是"事前授权"问题。当前PSRO+神经网络的策略出问题了，好歹还能说"这是训练过程收敛的统计结果"——有个模糊的责任分散机制。CSRO生成的Python代码如果出了问题，那可是人眼能逐行读出来的，到时候"这么明显的逻辑错误你居然没看出来"这个锅，会比"黑盒不可解释"更难甩。

总之，方向确实性感，但把"代码可解释"当成卖点来推，有点像给一辆还没装刹车的超跑做车漆。漆是好漆，车也能跑，但你让我坐进去？我得再看看。