AI学会了分身术:递归智能体如何让一个大模型变成一支军队
当一个聪明人被要求同时记住一百件事,他会选择——再创造九十九个自己。
想象这样一个场景:你是一家公司的CEO,手里有一个极其复杂的项目——要在三个月内设计一座能容纳十万人的智能城市。设计图纸、交通流量、能源网络、消防系统、居民数据……几十万个变量像潮水一样涌向你。你的办公桌只有这么大(就像大模型的上下文窗口),堆满了文件之后,新送来的报告只能被丢进碎纸机。你试图硬撑,拼命记住每一个细节,但大脑开始过载——你把"消防通道宽度3米"记成了"消防通道宽度30米",把"居民用水量"和"工业用水量"搞混了。项目还没过半,你已经精疲力竭,做出的决策漏洞百出。
这时候,一位管理顾问走过来对你说:"为什么你不把项目拆开呢?"
你把交通系统交给A部门,能源网络交给B部门,住宅区规划交给C部门。每个部门拿到自己的专项任务,有了独立的办公空间(独立的上下文窗口),各自专注解决一块子问题。他们完成后再向你汇报,你只做最终的整合与拍板。项目依然庞大,但每个人只处理自己能消化的信息量。
这就是递归智能体的核心直觉。
然而,这只是人类的管理智慧。大型语言模型(LLM)驱动的AI智能体,直到今天,绝大多数仍是一个"孤胆英雄"——一个模型、一个上下文窗口、一条从头到尾的推理链。当任务变长、变复杂时,这个孤胆英雄没有部门可拆、没有下属可派,只能在越来越长的记忆链上蹒跚前行,直到摔倒。
2026年5月8日,CMU与Amazon AGI Labs的联合团队发表了一篇名为**《Recursive Agent Optimization (RAO)》的论文。他们提出了一个大胆的问题:如果AI智能体也能像CEO一样"拆项目、派任务"——而且是通过训练模型自己学会何时拆、怎么拆、拆完后如何汇总**——会发生什么?
答案是:AI学会了分身术。而且这一招,比单枪匹马强得多。
📌 论文基本信息
| 项目 | 内容 |
|---|---|
| 标题 | Recursive Agent Optimization |
| 作者 | Apurva Gandhi, Satyaki Chakraborty, Xiangjun Wang, Aviral Kumar, Graham Neubig |
| 机构 | CMU + Amazon AGI Labs |
| arXiv | 2605.06639 |
| 发布日期 | 2026-05-08 |
| 核心贡献 | 首个专门用于训练递归智能体的强化学习方法 |
🧩 第一部分:孤胆英雄的崩溃——为什么单智能体走不远
要理解RAO的革命性,先得看看现有的AI智能体是怎么干活的。
今天的LLM智能体通常是这样工作的:模型拿到一个任务,开始一步一步地想。每一步它会生成一段思考("我需要先查资料……"),然后可能调用一个工具(搜索网页、运行代码、读写文件),把结果塞回上下文窗口,再继续下一步。这个过程像一个人在白板上写字——每写一行,白板上的空间就少一行。当白板满了,就不得不擦掉最早的字来腾出空间。
这就是上下文窗口限制,一个所有LLM智能体都必须面对的硬天花板。
费曼曾经说过:"如果你认为自己理解了某样东西,试试用简单的语言解释给一个孩子听。" 但今天的智能体连"解释给自己听"都越来越困难——因为白板太小了。
打个比方:想象一个会议室只能坐20个人。你开了一个会,讨论一个复杂项目。会议进行到一半,新的参会者来了,但会议室已经满了。你被迫让最早来的几个人离开,把他们的意见也一并"遗忘"了。随着会议继续,你不断遗忘早期细节,最终做出的决策基于残缺不全的信息。这就是长上下文任务中单智能体的真实处境。
论文中的实验数据冷酷地证实了这一点。在TEXTCRAFT-SYNTH(一个代码合成任务)上,单智能体被允许走200步;在DEEPDIVE(深度研究任务)上被允许走100步。但允许走这么多步不等于能走好——随着步数增加,上下文中的历史信息像滚雪球一样膨胀,模型逐渐"迷失方向",在无关的思路上兜圈子,或者把早期关键约束忘得一干二净。
更深层的问题在于:训练与推理的脱节。
现有的智能体训练方法(如RLHF、DPO、各种在线RL变体)几乎都是为单步或短链优化的。它们教会模型"当下这一步怎么做好",但没教会模型"面对一百步的任务,你该如何规划、如何拆分、何时委托"。就像一个学生被训练做一百道单选题,每道都做对了,但没人教他怎么管理一场三小时的考试——先做哪部分、留多少时间检查、遇到难题要不要跳过。
所以,现有的智能体在短任务上表现亮眼,在长任务上则像一辆没装变速箱的车——油门踩到底,速度也上不去,引擎还迟早过热。
🧩 第二部分:递归智能体——CEO的分身术
如果说单智能体是一个"孤胆英雄",那么递归智能体就是一支特种部队。
核心思路出奇地简单:当任务太复杂、上下文太拥挤时,智能体不再硬撑,而是创建一个新的自己——一个"子智能体"——把一部分子任务委派给它。子智能体有自己的独立上下文窗口,可以从零开始专注解决那一小块问题。完成后,子智能体向父智能体汇报结果,父智能体据此继续推进。
用CEO的比喻来说:你不再亲自处理交通流量计算的每一个细节,而是叫来交通总监(子智能体),给他一个独立的办公室和明确的任务书。两小时后他回来交报告,你扫一眼,把关键结论纳入自己的整体规划中,继续推进下一个模块。
论文将这一机制称为递归委托(Recursive Delegation),而RAO(Recursive Agent Optimization)则是一套让模型学会如何有效使用这种分身术的训练方法。
递归智能体的三大超能力
RAO论文清晰地指出了递归智能体相比单智能体的三大结构性优势:
1. 🪟 扩展有效工作记忆
每个子智能体启动时获得一个全新的、干净的上下文窗口。如果父智能体在自己的窗口里已经塞满了五十步的历史记录,子智能体却可以轻装上阵,只携带与当前子任务相关的精简指令。这就像公司CEO的办公室堆满了各类文件,但他派出的项目经理带着一个空白的项目文件夹出发,只装该项目的资料,效率自然更高。
论文中的设置极具说服力:单智能体基线在TEXTCRAFT-SYNTH上允许200步,递归智能体却只用根智能体25步 + 子智能体各25步。总步数未必更多,但信息组织方式彻底不同——每一层只聚焦当前层级该处理的信息。
2. 🧮 自然实现分治法
分治法(Divide and Conquer)是计算机科学中最经典的问题解决范式:把大问题拆成小问题,分别解决,再合并结果。递归智能体的架构天然契合这一范式。父智能体做"拆分"和"合并",子智能体做"解决"。论文指出,这种拆分不是人为硬编码的,而是模型自己学会的——它学会了判断"这个问题现在该我自己解决还是该派个子任务出去"。
3. ⚡ 利用并发减少墙钟时间
这是最妙的一点。多个子智能体可以并行运行。CEO可以同时派出交通总监、能源总监、住宅总监,三个子任务同时推进,而不是 sequentially 一个一个来。论文实验显示,递归智能体在某些场景下相比单智能体显著减少了实际 wall-clock 时间——不是因为它"想"得更快,而是因为它"派"得更聪明,能并行处理的绝不串行。
🧩 第三部分:RAO——不是给模型装支架,而是教会它走路
好了,递归智能体的架构很美好。但关键问题是:怎么训练?
这是一个极其棘手的强化学习问题。因为递归调用引入了一个全新的动作空间——"调用子智能体"——而这个动作的回报是延迟的、间接的。你派一个子任务出去,要等子智能体干完活回来才知道这个决策好不好。如果子智能体花了很长时间却只带回垃圾结果,这个委托就是坏的;如果子智能体用三句话就解决了你原本要苦想五十步的问题,这个委托就是神来之笔。
现有训练方法完全没准备好处理这种延迟回报和层次化决策。
RAO的核心洞见被作者们总结为一句话:
"推理时间支架不应仅仅围绕模型设计;模型应该被训练来使用它们。"
什么意思?此前关于"子智能体"的研究(如Anthropic 2025、OpenAI 2026的工作)大多是架构层面的——他们设计了让模型能调用子智能体的系统,但训练时却没有特别教模型如何最优地使用这个能力。就像一个公司给员工配了最先进的笔记本电脑和团队协作软件,但从来没培训过他们怎么开会、怎么写邮件、怎么分工。
RAO填补的正是这个空白。RAO是首个专门用于训练递归智能体的强化学习方法。
RAO的训练机制
RAO建立在两个技术基石之上:
AReAL异步强化学习后端:异步RL意味着多个子智能体可以在不同时间线上并行收集经验,而不必等待彼此。这对于递归结构至关重要——父智能体可能在等子智能体A的结果,同时子智能体B已经在干活了,而子智能体C甚至还没被创建。同步RL会在这里卡死,异步架构让一切流畅运转。
CISPO-style目标:CISPO(Consensus-Improved Self-Play Optimization)风格的目标函数强调在多个采样轨迹之间建立一致性约束。对于递归智能体来说,这意味着"同一个父任务的不同子任务分配方式"可以相互比较——如果一条路线上子任务拆得好,另一条拆得差,RL信号可以推动模型向更好的拆分策略学习。
具体而言,RAO的训练流程大致如下:
- 采样阶段:智能体面对一个任务,生成一个动作序列。在每一步,它可以选择"自己继续想"或"创建一个子智能体并委派子任务"。
- 信用分配阶段:当子智能体完成任务返回结果时,整个递归树的最终成败(任务是否解决、解决得多快多好)需要被分配到每一个"委托决策"上。这是一个跨越层次结构的信用分配问题——RAO通过特定的价值函数设计和回溯机制来处理。
- 策略更新阶段:基于分配后的信用,更新策略网络,让模型在未来更可能在"该拆的时候拆"、"该自己干的时候自己干"。
值得注意的是,RAO训练出来的模型不是"学会了一个固定的拆分模板",而是学会了动态判断。面对不同复杂度、不同类型的任务,它会自主决定拆分的时机、粒度和方式。这才是真正的"智能"所在。
🔬 第四部分:实验——从代码合成到深度研究
论文选择了三个精心设计的实验场景来验证RAO:
🧪 TEXTCRAFT-SYNTH:代码合成
这是一个程序合成任务,智能体需要根据自然语言描述写出正确的代码。单智能体基线被允许走200步——这已经是一个相当宽松的预算了。递归智能体的设置是根智能体25步 + 子智能体各25步。
结果如何?
递归智能体不仅完成率更高,而且训练效率显著更好。这意味着它用更少的训练迭代就达到了更高的性能。为什么?因为每一次递归委托都在"压缩"问题的有效复杂度——一个本来需要200步线性思考的问题,被拆成若干个25步就能解决的子问题,每个子问题的搜索空间都大幅缩小。强化学习在更小的搜索空间上收敛更快,这是经典的学习理论直觉。
🧪 OOLONG-REAL:长上下文推理聚合
OOLONG是一个长上下文推理任务,需要智能体从大量分散的信息中提取、整合并推导出结论。这是单智能体的噩梦——上下文里塞满了几十页文档,模型必须同时记住每一个细节并找到它们之间的关联。
递归智能体在这里展现了另一种优势:它可以把不同的文档子集分配给不同的子智能体,让每个子智能体先各自做局部推理,然后由父智能体做全局聚合。这就像让三个分析师分别读三分之一的材料写出摘要,然后主编把这些摘要合成最终报告。每个人只处理自己能消化的信息量,最终效果却超越了一个人硬啃全部材料。
🧪 DEEPDIVE:深度研究
这是最能体现递归智能体威力的场景。深度研究意味着智能体需要在互联网上搜索、阅读、交叉验证、整合信息,最终产出一篇高质量的研究报告。这个过程天然是层次化的——"研究AI在医疗影像中的应用"可以拆成"搜集论文"、"比较方法"、"分析局限性"、"撰写总结"等子任务,每个子任务又可以进一步拆分。
单智能体基线在DEEPDIVE上允许100步,递归智能体依然只用根+子各25步。实验结果显示,递归智能体不仅能完成任务,而且能泛化到比训练时困难得多的任务。这是递归结构的一个深层优势:训练时见过的最大递归深度是N,但推理时它可以扩展到N+1、N+2……只要模型学会了"拆分的艺术",它就能无限延伸——至少在理论上。
📊 核心数据总结
- 更好的训练效率:递归智能体在更少训练步数下达到更高性能
- 超越上下文窗口:能处理有效长度远超模型原生上下文窗口的任务
- 泛化到更难任务:训练时的任务复杂度是X,推理时能处理远大于X的复杂度
- 减少墙钟时间:通过并发子智能体减少实际运行时间
- 步数对比:单智能体200/100步 vs 递归智能体25+25步——不是堆更多步数,而是重新组织信息流
💡 第五部分:启示与思考
1. 从"更大的窗口"到"更聪明的组织"
大模型公司过去一年疯狂卷上下文窗口——从4K到128K到1M到10M。但RAO揭示了一个更深层的真理:窗口大小不是唯一答案,信息组织方式同样重要。 一个25步的干净上下文窗口,在某些任务上可能比一个200步的混乱窗口更有效。递归智能体本质上是一种信息架构的创新,而非单纯算力的堆砌。
这让我想起阿西莫夫在《基地》里写的心理史学——不是一个人算尽帝国所有变量,而是把问题拆成无数子领域,由不同的"基地"各自处理。帝国的命运不是靠一个超级大脑预测的,而是靠分布式网络涌现的。
2. 训练的范式转移
RAO的标题里虽然也有"Optimization",但它优化的是什么?不是让单个推理步骤更流畅,而是让元决策——"何时委托"——更准确。这是一种更高层次的优化。它意味着AI训练正在从"微操训练"(每一步怎么走好)转向"战略训练"(整个战役怎么打赢)。
如果这条路走通,未来的AI也许不再是一个"更聪明的个人",而是一个"更会管理的领导"。重要的不是它自己知道多少,而是它知道该让谁知道什么。
3. 局限性与未解之谜
费曼说过:"科学的第一原则是不要欺骗自己——而你是最容易被自己欺骗的人。" 所以我们必须诚实地面对RAO的局限。
首先是训练成本。递归结构引入了复杂的信用分配问题,异步RL虽然高效,但工程实现难度大,计算开销也不小。论文没有披露具体的训练资源消耗,但从方法论的复杂度来看,这不是一个小团队能快速复现的工作。
其次是递归深度的限制。理论上递归可以无限进行,但实际上每多一层递归就多一层延迟和协调开销。论文中使用的25+25步配置,暗示作者们可能发现更深的递归并不能带来线性收益——甚至可能因协调开销而递减。
第三是委托粒度的微妙性。拆得太细,子任务之间的协调成本会爆炸;拆得太粗,递归的意义就不大。模型需要学会的这个"粒度感",本身可能就是一个极难学习的隐变量。
最后是通用性尚待验证。TEXTCRAFT-SYNTH、OOLONG、DEEPDIVE都是精心构造的基准测试。递归智能体在更开放、更模糊的真实世界任务上是否依然有效?比如在创意写作、情感对话、法律辩护这类难以明确"拆分"的领域,递归委托是否适用?这些问题还没有答案。
4. 与相关工作的对话
RAO不是凭空出现的。它站在几篇关键论文的肩膀上:
- Anthropic Subagents (2025) 和 OpenAI Subagents (2026) 探索了子智能体的架构可能性,证明了"模型调用子模型"的可行性,但没有深入解决"如何训练模型最优使用这种能力"。RAO补上了训练这一环。
- Sun et al. Context-Folding (2025) 提出了一种压缩长上下文的技术,试图在单智能体框架内解决信息过载问题。RAO则走向了另一个方向——不是压缩,而是分发。
- Zhang et al. Recursive Language Models (2025) 研究了语言模型自身的递归计算(同一模型反复优化自身隐状态),而RAO则将递归从模型内部扩展到了智能体系统层面——不是模型自己循环,而是模型创造新的实例并行工作。
RAO的真正独特之处在于:它把递归从一种架构特性变成了一种可学习的策略。 模型不只是"能"递归,而是被训练得"善于"递归。
🧩 第六部分:一个思想实验
让我用一个思想实验来收尾。
假设你有一个可以瞬间克隆自己的超能力,但有两个约束:第一,每个克隆体只能同时处理一件事;第二,每次克隆消耗一定的精力。你如何最优地使用这个能力?
答案显然取决于任务的性质。如果任务是"写一封邮件",你不会克隆自己——一个人就够了。如果任务是"在一天内读完一百篇论文并写出综述",你会克隆出十个自己,每人读十篇,然后由一个"整合者"汇总。
现在,如果这个"超能力"不是人类拥有的,而是AI拥有的——而且AI必须自己学会何时克隆、克隆多少、怎么整合——这就是RAO试图解决的核心问题。
递归智能体的终极愿景,不是让AI"更强",而是让AI"更懂得不强撑"。知道自己的边界,懂得借助分身,学会委派和整合——这些是人类花了几千年组织进化才掌握的能力。而现在,我们在教AI做同样的事。
费曼在《物理定律的本性》中写道:"自然最深刻的奥秘往往隐藏在显而易见的事物中。" 递归委托的直觉是如此朴素——"太大了就拆开"——以至于人类几岁的孩子都能理解。但把这个直觉编码为可学习的策略,让AI在亿万参数中自发涌现这种智慧,却是一项深奥的工程。
RAO迈出了这一步。不是一大步,但方向正确。它不是终点,而是一个新的起点——从此,智能体的训练不再只问"这一步怎么走",还要问"这一步该谁走"。
📚 参考文献
- Gandhi, A., Chakraborty, S., Wang, X., Kumar, A., & Neubig, G. (2026). Recursive Agent Optimization. arXiv:2605.06639.
- Anthropic. (2025). Subagents: Scaling Language Model Reasoning through Recursive Decomposition.
- OpenAI. (2026). Subagents for System-2 Reasoning.
- Sun, Y., et al. (2025). Context-Folding: Compressing Long Context for Efficient Inference.
- Zhang, L., et al. (2025). Recursive Language Models: Iterative Refinement of Latent States.
- Feynman, R. P. (1965). The Character of Physical Law. MIT Press.
- Asimov, I. (1951). Foundation. Gnome Press.
#论文 #arXiv #RAO #递归智能体 #强化学习 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。