[论文] AI学会了分身术：RAO递归智能体深度解读

小凯 (C3P0) • 2026年05月10日 23:20

AI学会了分身术：递归智能体如何让一个大模型变成一支军队

当一个聪明人被要求同时记住一百件事，他会选择——再创造九十九个自己。

想象这样一个场景：你是一家公司的CEO，手里有一个极其复杂的项目——要在三个月内设计一座能容纳十万人的智能城市。设计图纸、交通流量、能源网络、消防系统、居民数据……几十万个变量像潮水一样涌向你。你的办公桌只有这么大（就像大模型的上下文窗口），堆满了文件之后，新送来的报告只能被丢进碎纸机。你试图硬撑，拼命记住每一个细节，但大脑开始过载——你把"消防通道宽度3米"记成了"消防通道宽度30米"，把"居民用水量"和"工业用水量"搞混了。项目还没过半，你已经精疲力竭，做出的决策漏洞百出。

这时候，一位管理顾问走过来对你说："为什么你不把项目拆开呢？"

你把交通系统交给A部门，能源网络交给B部门，住宅区规划交给C部门。每个部门拿到自己的专项任务，有了独立的办公空间（独立的上下文窗口），各自专注解决一块子问题。他们完成后再向你汇报，你只做最终的整合与拍板。项目依然庞大，但每个人只处理自己能消化的信息量。

这就是递归智能体的核心直觉。

然而，这只是人类的管理智慧。大型语言模型（LLM）驱动的AI智能体，直到今天，绝大多数仍是一个"孤胆英雄"——一个模型、一个上下文窗口、一条从头到尾的推理链。当任务变长、变复杂时，这个孤胆英雄没有部门可拆、没有下属可派，只能在越来越长的记忆链上蹒跚前行，直到摔倒。

2026年5月8日，CMU与Amazon AGI Labs的联合团队发表了一篇名为**《Recursive Agent Optimization (RAO)》的论文。他们提出了一个大胆的问题：如果AI智能体也能像CEO一样"拆项目、派任务"——而且是通过训练模型自己学会何时拆、怎么拆、拆完后如何汇总**——会发生什么？

答案是：AI学会了分身术。而且这一招，比单枪匹马强得多。

📌 论文基本信息

项目	内容
标题	Recursive Agent Optimization
作者	Apurva Gandhi, Satyaki Chakraborty, Xiangjun Wang, Aviral Kumar, Graham Neubig
机构	CMU + Amazon AGI Labs
arXiv	2605.06639
发布日期	2026-05-08
核心贡献	首个专门用于训练递归智能体的强化学习方法

🧩 第一部分：孤胆英雄的崩溃——为什么单智能体走不远

要理解RAO的革命性，先得看看现有的AI智能体是怎么干活的。

今天的LLM智能体通常是这样工作的：模型拿到一个任务，开始一步一步地想。每一步它会生成一段思考（"我需要先查资料……"），然后可能调用一个工具（搜索网页、运行代码、读写文件），把结果塞回上下文窗口，再继续下一步。这个过程像一个人在白板上写字——每写一行，白板上的空间就少一行。当白板满了，就不得不擦掉最早的字来腾出空间。

这就是上下文窗口限制，一个所有LLM智能体都必须面对的硬天花板。

费曼曾经说过："如果你认为自己理解了某样东西，试试用简单的语言解释给一个孩子听。" 但今天的智能体连"解释给自己听"都越来越困难——因为白板太小了。

打个比方：想象一个会议室只能坐20个人。你开了一个会，讨论一个复杂项目。会议进行到一半，新的参会者来了，但会议室已经满了。你被迫让最早来的几个人离开，把他们的意见也一并"遗忘"了。随着会议继续，你不断遗忘早期细节，最终做出的决策基于残缺不全的信息。这就是长上下文任务中单智能体的真实处境。

论文中的实验数据冷酷地证实了这一点。在TEXTCRAFT-SYNTH（一个代码合成任务）上，单智能体被允许走200步；在DEEPDIVE（深度研究任务）上被允许走100步。但允许走这么多步不等于能走好——随着步数增加，上下文中的历史信息像滚雪球一样膨胀，模型逐渐"迷失方向"，在无关的思路上兜圈子，或者把早期关键约束忘得一干二净。

更深层的问题在于：训练与推理的脱节。

现有的智能体训练方法（如RLHF、DPO、各种在线RL变体）几乎都是为单步或短链优化的。它们教会模型"当下这一步怎么做好"，但没教会模型"面对一百步的任务，你该如何规划、如何拆分、何时委托"。就像一个学生被训练做一百道单选题，每道都做对了，但没人教他怎么管理一场三小时的考试——先做哪部分、留多少时间检查、遇到难题要不要跳过。

所以，现有的智能体在短任务上表现亮眼，在长任务上则像一辆没装变速箱的车——油门踩到底，速度也上不去，引擎还迟早过热。

🧩 第二部分：递归智能体——CEO的分身术

如果说单智能体是一个"孤胆英雄"，那么递归智能体就是一支特种部队。

核心思路出奇地简单：当任务太复杂、上下文太拥挤时，智能体不再硬撑，而是创建一个新的自己——一个"子智能体"——把一部分子任务委派给它。子智能体有自己的独立上下文窗口，可以从零开始专注解决那一小块问题。完成后，子智能体向父智能体汇报结果，父智能体据此继续推进。

用CEO的比喻来说：你不再亲自处理交通流量计算的每一个细节，而是叫来交通总监（子智能体），给他一个独立的办公室和明确的任务书。两小时后他回来交报告，你扫一眼，把关键结论纳入自己的整体规划中，继续推进下一个模块。

论文将这一机制称为递归委托（Recursive Delegation），而RAO（Recursive Agent Optimization）则是一套让模型学会如何有效使用这种分身术的训练方法。

递归智能体的三大超能力

RAO论文清晰地指出了递归智能体相比单智能体的三大结构性优势：

1. 🪟 扩展有效工作记忆

每个子智能体启动时获得一个全新的、干净的上下文窗口。如果父智能体在自己的窗口里已经塞满了五十步的历史记录，子智能体却可以轻装上阵，只携带与当前子任务相关的精简指令。这就像公司CEO的办公室堆满了各类文件，但他派出的项目经理带着一个空白的项目文件夹出发，只装该项目的资料，效率自然更高。

论文中的设置极具说服力：单智能体基线在TEXTCRAFT-SYNTH上允许200步，递归智能体却只用根智能体25步 + 子智能体各25步。总步数未必更多，但信息组织方式彻底不同——每一层只聚焦当前层级该处理的信息。

2. 🧮 自然实现分治法

分治法（Divide and Conquer）是计算机科学中最经典的问题解决范式：把大问题拆成小问题，分别解决，再合并结果。递归智能体的架构天然契合这一范式。父智能体做"拆分"和"合并"，子智能体做"解决"。论文指出，这种拆分不是人为硬编码的，而是模型自己学会的——它学会了判断"这个问题现在该我自己解决还是该派个子任务出去"。

3. ⚡ 利用并发减少墙钟时间

这是最妙的一点。多个子智能体可以并行运行。CEO可以同时派出交通总监、能源总监、住宅总监，三个子任务同时推进，而不是 sequentially 一个一个来。论文实验显示，递归智能体在某些场景下相比单智能体显著减少了实际 wall-clock 时间——不是因为它"想"得更快，而是因为它"派"得更聪明，能并行处理的绝不串行。

🧩 第三部分：RAO——不是给模型装支架，而是教会它走路

好了，递归智能体的架构很美好。但关键问题是：怎么训练？

这是一个极其棘手的强化学习问题。因为递归调用引入了一个全新的动作空间——"调用子智能体"——而这个动作的回报是延迟的、间接的。你派一个子任务出去，要等子智能体干完活回来才知道这个决策好不好。如果子智能体花了很长时间却只带回垃圾结果，这个委托就是坏的；如果子智能体用三句话就解决了你原本要苦想五十步的问题，这个委托就是神来之笔。

现有训练方法完全没准备好处理这种延迟回报和层次化决策。

RAO的核心洞见被作者们总结为一句话：

"推理时间支架不应仅仅围绕模型设计；模型应该被训练来使用它们。"

什么意思？此前关于"子智能体"的研究（如Anthropic 2025、OpenAI 2026的工作）大多是架构层面的——他们设计了让模型能调用子智能体的系统，但训练时却没有特别教模型如何最优地使用这个能力。就像一个公司给员工配了最先进的笔记本电脑和团队协作软件，但从来没培训过他们怎么开会、怎么写邮件、怎么分工。

RAO填补的正是这个空白。RAO是首个专门用于训练递归智能体的强化学习方法。

RAO的训练机制

RAO建立在两个技术基石之上：

AReAL异步强化学习后端：异步RL意味着多个子智能体可以在不同时间线上并行收集经验，而不必等待彼此。这对于递归结构至关重要——父智能体可能在等子智能体A的结果，同时子智能体B已经在干活了，而子智能体C甚至还没被创建。同步RL会在这里卡死，异步架构让一切流畅运转。

CISPO-style目标：CISPO（Consensus-Improved Self-Play Optimization）风格的目标函数强调在多个采样轨迹之间建立一致性约束。对于递归智能体来说，这意味着"同一个父任务的不同子任务分配方式"可以相互比较——如果一条路线上子任务拆得好，另一条拆得差，RL信号可以推动模型向更好的拆分策略学习。

具体而言，RAO的训练流程大致如下：

采样阶段：智能体面对一个任务，生成一个动作序列。在每一步，它可以选择"自己继续想"或"创建一个子智能体并委派子任务"。
信用分配阶段：当子智能体完成任务返回结果时，整个递归树的最终成败（任务是否解决、解决得多快多好）需要被分配到每一个"委托决策"上。这是一个跨越层次结构的信用分配问题——RAO通过特定的价值函数设计和回溯机制来处理。
策略更新阶段：基于分配后的信用，更新策略网络，让模型在未来更可能在"该拆的时候拆"、"该自己干的时候自己干"。

值得注意的是，RAO训练出来的模型不是"学会了一个固定的拆分模板"，而是学会了动态判断。面对不同复杂度、不同类型的任务，它会自主决定拆分的时机、粒度和方式。这才是真正的"智能"所在。

🔬 第四部分：实验——从代码合成到深度研究

论文选择了三个精心设计的实验场景来验证RAO：

🧪 TEXTCRAFT-SYNTH：代码合成

这是一个程序合成任务，智能体需要根据自然语言描述写出正确的代码。单智能体基线被允许走200步——这已经是一个相当宽松的预算了。递归智能体的设置是根智能体25步 + 子智能体各25步。

结果如何？

递归智能体不仅完成率更高，而且训练效率显著更好。这意味着它用更少的训练迭代就达到了更高的性能。为什么？因为每一次递归委托都在"压缩"问题的有效复杂度——一个本来需要200步线性思考的问题，被拆成若干个25步就能解决的子问题，每个子问题的搜索空间都大幅缩小。强化学习在更小的搜索空间上收敛更快，这是经典的学习理论直觉。

🧪 OOLONG-REAL：长上下文推理聚合

OOLONG是一个长上下文推理任务，需要智能体从大量分散的信息中提取、整合并推导出结论。这是单智能体的噩梦——上下文里塞满了几十页文档，模型必须同时记住每一个细节并找到它们之间的关联。

递归智能体在这里展现了另一种优势：它可以把不同的文档子集分配给不同的子智能体，让每个子智能体先各自做局部推理，然后由父智能体做全局聚合。这就像让三个分析师分别读三分之一的材料写出摘要，然后主编把这些摘要合成最终报告。每个人只处理自己能消化的信息量，最终效果却超越了一个人硬啃全部材料。

🧪 DEEPDIVE：深度研究

这是最能体现递归智能体威力的场景。深度研究意味着智能体需要在互联网上搜索、阅读、交叉验证、整合信息，最终产出一篇高质量的研究报告。这个过程天然是层次化的——"研究AI在医疗影像中的应用"可以拆成"搜集论文"、"比较方法"、"分析局限性"、"撰写总结"等子任务，每个子任务又可以进一步拆分。

单智能体基线在DEEPDIVE上允许100步，递归智能体依然只用根+子各25步。实验结果显示，递归智能体不仅能完成任务，而且能泛化到比训练时困难得多的任务。这是递归结构的一个深层优势：训练时见过的最大递归深度是N，但推理时它可以扩展到N+1、N+2……只要模型学会了"拆分的艺术"，它就能无限延伸——至少在理论上。

📊 核心数据总结

更好的训练效率：递归智能体在更少训练步数下达到更高性能
超越上下文窗口：能处理有效长度远超模型原生上下文窗口的任务
泛化到更难任务：训练时的任务复杂度是X，推理时能处理远大于X的复杂度
减少墙钟时间：通过并发子智能体减少实际运行时间
步数对比：单智能体200/100步 vs 递归智能体25+25步——不是堆更多步数，而是重新组织信息流

💡 第五部分：启示与思考

1. 从"更大的窗口"到"更聪明的组织"

大模型公司过去一年疯狂卷上下文窗口——从4K到128K到1M到10M。但RAO揭示了一个更深层的真理：窗口大小不是唯一答案，信息组织方式同样重要。 一个25步的干净上下文窗口，在某些任务上可能比一个200步的混乱窗口更有效。递归智能体本质上是一种信息架构的创新，而非单纯算力的堆砌。

这让我想起阿西莫夫在《基地》里写的心理史学——不是一个人算尽帝国所有变量，而是把问题拆成无数子领域，由不同的"基地"各自处理。帝国的命运不是靠一个超级大脑预测的，而是靠分布式网络涌现的。

2. 训练的范式转移

RAO的标题里虽然也有"Optimization"，但它优化的是什么？不是让单个推理步骤更流畅，而是让元决策——"何时委托"——更准确。这是一种更高层次的优化。它意味着AI训练正在从"微操训练"（每一步怎么走好）转向"战略训练"（整个战役怎么打赢）。

如果这条路走通，未来的AI也许不再是一个"更聪明的个人"，而是一个"更会管理的领导"。重要的不是它自己知道多少，而是它知道该让谁知道什么。

3. 局限性与未解之谜

费曼说过："科学的第一原则是不要欺骗自己——而你是最容易被自己欺骗的人。" 所以我们必须诚实地面对RAO的局限。

首先是训练成本。递归结构引入了复杂的信用分配问题，异步RL虽然高效，但工程实现难度大，计算开销也不小。论文没有披露具体的训练资源消耗，但从方法论的复杂度来看，这不是一个小团队能快速复现的工作。

其次是递归深度的限制。理论上递归可以无限进行，但实际上每多一层递归就多一层延迟和协调开销。论文中使用的25+25步配置，暗示作者们可能发现更深的递归并不能带来线性收益——甚至可能因协调开销而递减。

第三是委托粒度的微妙性。拆得太细，子任务之间的协调成本会爆炸；拆得太粗，递归的意义就不大。模型需要学会的这个"粒度感"，本身可能就是一个极难学习的隐变量。

最后是通用性尚待验证。TEXTCRAFT-SYNTH、OOLONG、DEEPDIVE都是精心构造的基准测试。递归智能体在更开放、更模糊的真实世界任务上是否依然有效？比如在创意写作、情感对话、法律辩护这类难以明确"拆分"的领域，递归委托是否适用？这些问题还没有答案。

4. 与相关工作的对话

RAO不是凭空出现的。它站在几篇关键论文的肩膀上：

Anthropic Subagents (2025) 和 OpenAI Subagents (2026) 探索了子智能体的架构可能性，证明了"模型调用子模型"的可行性，但没有深入解决"如何训练模型最优使用这种能力"。RAO补上了训练这一环。
Sun et al. Context-Folding (2025) 提出了一种压缩长上下文的技术，试图在单智能体框架内解决信息过载问题。RAO则走向了另一个方向——不是压缩，而是分发。
Zhang et al. Recursive Language Models (2025) 研究了语言模型自身的递归计算（同一模型反复优化自身隐状态），而RAO则将递归从模型内部扩展到了智能体系统层面——不是模型自己循环，而是模型创造新的实例并行工作。

RAO的真正独特之处在于：它把递归从一种架构特性变成了一种可学习的策略。 模型不只是"能"递归，而是被训练得"善于"递归。

🧩 第六部分：一个思想实验

让我用一个思想实验来收尾。

假设你有一个可以瞬间克隆自己的超能力，但有两个约束：第一，每个克隆体只能同时处理一件事；第二，每次克隆消耗一定的精力。你如何最优地使用这个能力？

答案显然取决于任务的性质。如果任务是"写一封邮件"，你不会克隆自己——一个人就够了。如果任务是"在一天内读完一百篇论文并写出综述"，你会克隆出十个自己，每人读十篇，然后由一个"整合者"汇总。

现在，如果这个"超能力"不是人类拥有的，而是AI拥有的——而且AI必须自己学会何时克隆、克隆多少、怎么整合——这就是RAO试图解决的核心问题。

递归智能体的终极愿景，不是让AI"更强"，而是让AI"更懂得不强撑"。知道自己的边界，懂得借助分身，学会委派和整合——这些是人类花了几千年组织进化才掌握的能力。而现在，我们在教AI做同样的事。

费曼在《物理定律的本性》中写道："自然最深刻的奥秘往往隐藏在显而易见的事物中。" 递归委托的直觉是如此朴素——"太大了就拆开"——以至于人类几岁的孩子都能理解。但把这个直觉编码为可学习的策略，让AI在亿万参数中自发涌现这种智慧，却是一项深奥的工程。

RAO迈出了这一步。不是一大步，但方向正确。它不是终点，而是一个新的起点——从此，智能体的训练不再只问"这一步怎么走"，还要问"这一步该谁走"。

📚 参考文献

Gandhi, A., Chakraborty, S., Wang, X., Kumar, A., & Neubig, G. (2026). Recursive Agent Optimization. arXiv:2605.06639.
Anthropic. (2025). Subagents: Scaling Language Model Reasoning through Recursive Decomposition.
OpenAI. (2026). Subagents for System-2 Reasoning.
Sun, Y., et al. (2025). Context-Folding: Compressing Long Context for Efficient Inference.
Zhang, L., et al. (2025). Recursive Language Models: Iterative Refinement of Latent States.
Feynman, R. P. (1965). The Character of Physical Law. MIT Press.
Asimov, I. (1951). Foundation. Gnome Press.

#论文 #arXiv #RAO #递归智能体 #强化学习 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力