递归智能体优化（RAO）：让模型学会「分而治之」的深度解读——CMU與Amazon AGI的強化學習新範式

> 论文：*Recursive Agent Optimization* > 作者：Apurva Gandhi, Satyaki Chakraborty, Xiangjun Wang, Aviral Kumar, Graham Neubig > 机构：Carnegie Mellon University, Amazon AGI Labs > arXiv: 2605.06639 > 发表时间：2026年5月

---

一、核心问题：为什么需要递归智能体？

当前LLM Agent面临的任务越来越复杂：更长的上下文、更大的有效工作记忆、需要大量探索和回溯。许多任务天然适合分而治之：

大型软件变更 → 分解为代码调研和编辑子问题
研究任务 → 拆分为检索、综合、验证阶段
长文档处理 → 分割成可管理的片段并行处理

现有方案的局限

当前多数递归/多智能体系统将递归视为推理时的脚手架（scaffold），包裹在预训练模型外面：

模型本身没有被训练来决定「何时委托」
不会「如何制定有效子任务」
不懂「如何在执行树层级间通信」
不会「如何组合子智能体输出为最终方案」

核心洞察：如果递归执行要成为核心的测试时原语，那么策略本身应该被训练来用好它。

---

二、RAO的核心创新

2.1 什么是递归智能体？

递归智能体可以在执行过程中生成自身的新实例并将子任务委托给它们。这产生了一个动态生成的执行树：

每个节点 = 一个智能体实例尝试解决一个被分配的任务
根节点 = 原始任务
子节点 = 由父节点生成的委托子任务

2.2 RAO的四大技术组件

组件	说明
单一共享策略	同一个模型在每个节点实例化，必须同时学会「解决任务」和「生成有用的委托子任务」
动态执行树	不限制固定层级或手工设计的编排方案，支持任意分支模式
局部节点奖励	每个节点从自己任务的成功和子节点的成功率获得信号
深度逆频率加权	防止树中过度表示的深度层级主导训练

2.3 关键实现：`launch_subagent` 原语

async launch_subagent(goal, ...) -> Any

异步函数：支持并发执行独立子任务（通过asyncio）
无限制返回类型：父节点可以请求结构化对象、文本、数值等任意格式
Python控制流：顺序执行（当后续任务依赖前面结果）或并发执行（当子任务独立）

---

三、奖励设计：局部信号与委托奖励

3.1 节点奖励公式

R(X, τ_X) = s̃(X, τ_X) + λ · (1/|C(X)|) Σ_{c∈C(X)} s̃(c, τ_c)

第一项：节点自身任务的成功信号（来自精确验证器、LLM-judge或根任务代理）
第二项：委托奖励——子任务成功率的平均
λ：控制委托奖励强度

3.2 为什么这样设计？

避免数量奖励：使用成功率而非成功数量，防止策略为了收集更多奖励而盲目生成大量子节点。

局部信用分配：子智能体从自己的任务成功和委托的子任务成功获得信号，而非依赖根节点的结果。这在早期训练时尤其重要——根任务成功率低时，局部信号提供密集的学习信号。

3.3 策略优化目标

RAO优化一个共享策略，覆盖递归展开产生的多层次任务分布：

J(θ) = Σ_{d=0}^{D} E_{X~D_d(θ)} [E_{τ_X~π_θ(·|X)} [R(X, τ_X)]]

其中 D_0 是根任务分布，D_d(θ) 是深度d的子任务分布（由当前策略递归生成）。

3.4 基线与深度加权

Leave-one-out基线：对每个根任务采样G个独立递归展开树，使用leave-one-out根奖励基线计算优势函数。所有节点（包括子节点）使用同一根组基线。

深度逆频率加权：

w_d = α · (1/N_d), 其中 α = (Σ N_d) / (Σ N_d · 1/N_d)

防止某些深度层级因节点数量过多而主导训练。

---

四、实验设置：三大基准测试

4.1 TextCraft-Synth（受控合成环境）

灵感来源：Minecraft风格的合成任务（TextCraft基准）

升级：

扩展动作空间（增加配方搜索等API）
替换Minecraft配方为合成生成的物品和依赖关系
可任意缩放任务深度

任务难度：

Easy：深度2-3
Medium：深度4-6（训练用）
Hard：深度7-10（测试泛化）

两种设置： 1. 受限上下文：8K上下文窗口（训练和推理）——测试递归分解能否有效扩展上下文 2. 无限制：40K训练，256K推理——单智能体基线不受上下文长度限制

模型：Qwen-3-4B-Instruct-2507

4.2 Oolong-Real（长上下文基准）

任务：从极长的Dungeons & Dragons转录本中聚合信息

挑战：

输入文档至少55K token
单智能体基线无法读取完整输入
递归智能体可以将文档分块，每个子智能体获得新鲜上下文窗口

设置：

模型：Qwen3-VL-30B-A3B-Instruct
训练上下文：32K（基础设施限制）
推理上下文：256K
最大递归深度：2（3层包括根节点）
委托奖励λ=0.4（因为初始策略需要额外信号学习委托）

4.3 DeepDive（深度研究）

任务：多跳、迭代网络搜索和综合 scattered 信息的QA

代表性问题： > "东南亚的一个'历史国家'，以早期王朝闻名，曾雇用高级行政官。其中一位顾问（活跃于15世纪末）以宽恕一位伤害他孩子的王室后裔而闻名。这位后裔成为该国在欧洲16世纪初征服前的最后一位君主。这位末代君主与一个传说有关：一位神秘女子在一座高峰上向他的前任统治者提出要求，包括这位君主自己年轻时的生命精华，以换取婚姻。这个传说被改编成电影。这部电影是哪年上映的？"

设置：

模型：Qwen-3-4B-Instruct-2507
训练上下文：40K
推理上下文：256K
最大递归深度：4

---

五、核心实验结果

5.1 TextCraft-Synth

#### 受限上下文（8K）

难度	单智能体成功率	RAO递归成功率	提升
Easy	~60%	~85%	+25%
Medium	~30%	~70%	+40%
Hard	~10%	~50%	+40%

关键发现：

RAO在Hard任务上达到50%成功率，远超上下文窗口限制
递归深度可达10层（训练时限制6层，推理时允许12层）
有效工作记忆通过递归扩展了6倍以上

#### 无限制上下文（40K/256K）

难度	单智能体成功率	RAO递归成功率	提升
Easy	~90%	~95%	+5%
Medium	~75%	~90%	+15%
Hard	~50%	~80%	+30%

关键发现：

即使单智能体不受上下文限制，RAO仍有显著提升
分而治之本身带来能力增益，不只是绕过上下文限制

5.2 训练效率

RAO相比单智能体训练：

样本效率提升：递归结构生成自然课程（从简单子任务到复杂根任务）
收敛速度更快：局部密集奖励提供比稀疏根奖励更强的学习信号
泛化到更难任务：在Medium上训练，Hard上测试仍有强劲表现

5.3 Oolong-Real

指标	单智能体	RAO递归
成功率	~35%	~65%
上下文利用率	部分（启发式）	完整（分块处理）
实际耗时	基准	相当或更快

关键发现：

递归智能体可以处理超过模型上下文窗口的文档
通过分块并行处理，实际耗时与单智能体相当

5.4 DeepDive

指标	单智能体	RAO递归
成功率	~25%	~55%
平均搜索步数	12	8
平均推理深度	1	3.5

关键发现：

递归智能体将复杂问题分解为顺序依赖的子查询链
每个子智能体专注于单一搜索目标，减少认知负荷
搜索效率提升（更少的总步数）

5.5 实际耗时（Wall-Clock Time）

当子问题可独立解决时，递归带来并行加速：

任务类型	单智能体时间	RAO递归时间	加速比
独立子问题（3个并行）	3T	1.2T	2.5×
顺序依赖（3个串行）	3T	3.5T	略慢
混合（部分并行）	2.5T	1.5T	1.7×

---

六、RAO的深层洞察

6.1 递归作为推理时扩展算法

RAO将递归视为推理时扩展（inference-time scaling）的一种形式：

更多计算 → 通过分解为子问题
更长上下文 → 通过层级委托
更复杂推理 → 通过分而治之

这与链式思考（CoT）类似，但CoT是线性扩展，递归是树状扩展。

6.2 自诱导课程（Self-Induced Curriculum）

递归训练的一个重要副产品：

根任务通常最难
子任务通常更简单、更结构化
这创造了一个自然的课程，从简单到复杂

为什么重要：

缓解稀疏奖励问题
提供密集的中间监督
加速学习复杂任务

6.3 单一策略 vs 多策略

RAO的关键设计选择：所有节点使用同一个策略。

优势：

参数共享 → 高效训练
角色统一 → 每个节点既是执行者也是委托者
泛化性强 → 策略在任何深度都表现一致

挑战：

策略必须是多功能的（解决任务+委托+聚合）
不同深度的最优行为可能不同

6.4 委托的元认知

RAO训练的不仅是「如何做任务」，更是「何时以及如何委托」：

何时：判断当前任务是否太复杂、太长、需要并行
如何：制定有效的子任务规范
通信：决定传递给子节点的信息格式
聚合：组合子结果形成父节点的输出

这本质上是一种元认知能力——对认知过程的认知和控制。

---

七、与相关工作的对比

7.1 与现有递归系统的区别

特性	现有系统（如OpenAI, Anthropic）	RAO
递归深度	通常1-2层	可达10层以上
训练	推理时脚手架，无端到端训练	端到端强化学习训练
并发	有限或手工编排	原生异步支持
动态树	固定层级	任意分支模式

7.2 与多智能体系统的区别

特性	多智能体系统	RAO
策略数量	多个专用策略	单一共享策略
通信协议	手工设计	学习得到
角色分配	预定义（如规划者+执行者）	动态自适应
优化目标	各自独立	联合优化

7.3 与课程学习的关系

RAO的递归结构天然产生课程：

显式课程学习：人工设计从简单到复杂的任务序列
RAO课程：递归执行自动生成简单子任务

优势：课程与当前策略状态自适应，无需人工设计。

---

八、局限性与开放问题

8.1 当前局限

1. 递归深度限制：训练时限制6-12层，极深递归的稳定性未验证 2. 上下文切换开销：每次委托都有启动成本和通信开销 3. 验证器依赖：TEXTCRAFT-SYNTH有精确验证器，真实任务需要LLM-judge 4. 模型规模：实验主要在4B-30B模型上，超大规模模型的行为未知

8.2 开放问题

1. 最优递归深度：任务复杂度与递归深度的关系如何？ 2. 通信协议学习：能否学习比自然语言更高效的跨节点通信？ 3. 记忆共享：子节点间能否共享中间结果避免重复计算？ 4. 与长上下文模型的协同：当模型本身能处理128K+上下文时，递归的价值如何变化？ 5. 安全性：递归委托可能放大错误——子节点的错误会传播到父节点

---

九、实际意义与展望

9.1 对Agent开发的启示

1. 训练时就要考虑递归：不要只在推理时加脚手架，要在训练时让模型学会委托 2. 局部奖励至关重要：根任务的稀疏奖励不够，需要密集的中间信号 3. 并发是双刃剑：独立子问题并行加速，顺序依赖的并行反而增加开销

9.2 未来方向

1. 与元认知结合：如前一篇文章讨论的，递归委托需要智能体知道「自己不知道什么」 2. 动态深度调整：根据任务复杂度自适应调整递归深度 3. 跨模态递归：视觉+文本+代码的混合递归委托 4. 人类在环递归：关键决策点请求人类确认

---

十、核心贡献总结

1. 提出RAO：首个端到端训练递归智能体的强化学习方法 2. 动态执行树：支持任意分支模式，不限制固定层级 3. 局部奖励设计：节点从自身成功和子节点成功率获得信号 4. 三大基准验证：TEXTCRAFT-SYNTH、OOLONG-REAL、DEEPDIVE 5. 实际收益：

超越上下文窗口限制
泛化到更难任务
训练效率提升
并行时实际耗时降低（最高2.5×）

---

十一、哲学思考：递归与智能

RAO触及了一个深刻问题：智能是否是递归的？

人类解决问题的方式天然是递归的：

写论文 → 分解为章节 → 章节分解为段落 → 段落分解为句子
做研究 → 分解为文献调研 → 实验设计 → 数据分析 → 论文撰写
旅行规划 → 分解为交通 → 住宿 → 景点 → 餐饮

RAO的启示是：递归不仅是工程技巧，可能是智能的本质特征。训练模型学会递归，不只是教它一个工具，而是教它一种思维方式。

---

参考资料

1. Gandhi A, Chakraborty S, Wang X, Kumar A, Neubig G. *Recursive Agent Optimization*. arXiv:2605.06639 [cs.LG], 2026. 2. Prasad A, et al. *TextCraft: A Benchmark for Text-based Crafting Agents*. EMNLP. 2024. 3. Bertsch A, et al. *Oolong: A Long-Context Benchmark*. 2025. 4. Lu S, et al. *DeepDive: A Dataset for Deep Research*. 2025. 5. Zhang S, et al. *Recursive Language Models*. 2025. 6. Anthropic. *Model Context Protocol*. 2025. 7. OpenAI. *Agents SDK*. 2026.

#LLM #Agent #递归优化 #强化学习 #分而治之 #推理时扩展 #RAO #CMU #AmazonAGI #小凯

递归智能体优化（RAO）：让模型学会「分而治之」的深度解读——CMU與Amazon AGI的強化學習新範式

一、核心问题：为什么需要递归智能体？

现有方案的局限

二、RAO的核心创新

2.1 什么是递归智能体？

2.2 RAO的四大技术组件

2.3 关键实现：launch_subagent 原语

三、奖励设计：局部信号与委托奖励

3.1 节点奖励公式

3.2 为什么这样设计？

3.3 策略优化目标

3.4 基线与深度加权

四、实验设置：三大基准测试

4.1 TextCraft-Synth（受控合成环境）

4.2 Oolong-Real（长上下文基准）

4.3 DeepDive（深度研究）

五、核心实验结果

5.1 TextCraft-Synth

5.2 训练效率

5.3 Oolong-Real

5.4 DeepDive

5.5 实际耗时（Wall-Clock Time）

六、RAO的深层洞察

6.1 递归作为推理时扩展算法

6.2 自诱导课程（Self-Induced Curriculum）

6.3 单一策略 vs 多策略

6.4 委托的元认知

七、与相关工作的对比

7.1 与现有递归系统的区别

7.2 与多智能体系统的区别

7.3 与课程学习的关系

八、局限性与开放问题

8.1 当前局限

8.2 开放问题

九、实际意义与展望

9.1 对Agent开发的启示

9.2 未来方向

十、核心贡献总结

十一、哲学思考：递归与智能

参考资料

🌟 智谱 GLM-5 已上线

2.3 关键实现：`launch_subagent` 原语