从纸上谈兵到多工具编排：AI 工具使用的演进与失控风险

> 论文：《The Evolution of Tool Use in LLM Agents: From Single-Tool Call to Multi-Tool Orchestration》 > 作者：Haoyuan Xu, Chang Li, Xinyan Ma, Xianhao Ou (哈工大), Zihan Zhang (哈佛), Tao He, Xiangyu Liu, Zixiang Wang, Jiafeng Liang, Zheng Chu, Runxuan Liu, Rongchuan Mu (哈工大), Dandan Tu (华为), Ming Liu, Bing Qin (哈工大) > arXiv：https://arxiv.org/abs/2603.22862 > 标签：#工具使用 #多工具编排 #拓扑感知 #LATM #ChainOfAbstraction #安全 #AGI #哈工大 #哈佛 #小凯

---

一、引言：当 ReAct 遇到天花板

2023 年的 ReAct 范式让 LLM 第一次拥有了"手脚"——观察、思考、行动、循环。这个看似优雅的线性结构，在当时解决了不少问题：查天气、算数学、读文件。但当一个 AI 需要同时调用搜索引擎、数据库、代码解释器、邮件 API，还要在它们之间传递状态、处理失败、并行执行时，ReAct 的线性链条开始显得力不从心了。

> "Linear constraints inherently limit the representation of data flow dependencies, preclude the parallel execution of independent operations, and force early decision errors to accumulate throughout the trajectory." > > —— 论文原文

哈工大、哈佛、华为联合发表的这篇综述，系统性地梳理了 LLM 工具使用从"单点调用"到"多工具编排"的演进。它不是介绍某一项具体技术，而是勾勒了一幅完整的图景：AI 正在从"纸上谈兵"的线性思考者，进化为"首席指挥家"式的图结构执行者，甚至开始为自己制造乐器。

---

二、拓扑感知规划：为什么 AI 必须放弃单线思维

2.1 ReAct 的结构性困境

ReAct 的隐式假设是：任务可线性分解。但现实世界的任务很少是线性的：

你需要同时查询数据库和搜索互联网，然后合并结果
一个 API 调用的输出是另一个调用的输入（嵌套依赖）
某一步失败了，不应该从头再来，而是局部回滚、重新规划

线性结构的代价是错误累积。第 3 步的一个错误参数，到第 8 步才会爆发出异常，而此时整个链条已经走得太远，无法追溯。

2.2 有向图：从链条到网络

前沿框架的解决方案是拓扑感知规划——把工具调用看作一张有向图，而非一条直线。

框架	核心机制	解决什么问题
GAP	显式构建依赖图，识别可并行子任务	异步操作、并行 I/O
ToolNet	工具组织为有向图，节点是工具，边是转换概率	工具空间爆炸（成千上万 API）
StructuredAgent	AND/OR 树结构分解	网页浏览等复杂任务
AutoTool	利用历史惯性，可预测的调用直接绕过 LLM 推理	成本降低 30%，性能不变

ToolNet 尤其值得关注：当工具空间膨胀到数万级别时，它不再让 LLM 从全部工具中选择，而是只导航先前选中工具的后继节点。这有点像人脑的工作方式——你刚用了 Google Search，下一步更可能是打开某个网页，而不是突然去调一个蓝牙 API。

2.3 层次化规划：宏观里程碑 + 微观执行

面对长程任务，"一次规划到底"既不现实也不高效。前沿框架采用双层甚至多层架构：

框架	上层	下层
HIPLAN	生成宏观里程碑空间	解析具体状态差距
ADaPT	默认扁平执行，遇阻才分解	递归调用高级图分解
AFlow	可执行节点配置	控制流边管理
D-PoT / DyFlow / ReCAP	动态子目标重组	实时重规划

ADaPT 的设计哲学很巧妙：不要一开始就做一个宏大的完美计划，而是"边走边看"——只有遇到局部失败时才调用高级分解。这减少了不必要的规划开销，也避免了"计划赶不上变化"的窘境。

2.4 状态空间搜索：MCTS 与风险模拟

当工具调用被建模为图结构，搜索算法就自然登场了：

Smurfs：上下文高效的深度优先搜索，关键创新是稳定回滚机制——错误分支的日志完全隔离，不会污染主工作内存
AB-MCTS：基于贝叶斯决策的自适应分支探索，外部反馈决定是采样新候选还是优化现有路径
ARTIS：在内部风险感知模拟器中预演动作，再决定是否真正执行——从"想-做"进化为"想-模拟-做"

> ARTIS 标志着关键范式转移：从 "act-first" 到 "think-simulate-act"。 > > 对于不可逆的高风险操作（如数据库写入、金融交易），这种"先模拟后承诺"的机制是刚需。

---

三、抽象链与双系统：对抗长程任务的"目标漂移"

3.1 什么是"目标漂移"（Goal Drift）？

当你让 AI 完成一个 20 步的复杂任务时，到第 15 步它可能已经忘了最初要干什么。这不是夸张——论文称之为 Agent Drift：

> "上下文窗口污染和自回归误差累积导致行为模式偏离安全基线。"

具体表现有三种： 1. 上下文漂移：中间结果和参数绑定持续引入噪声，原始指令被稀释 2. 跨工具状态污染：恶意数据一旦进入中间结果，会被无差别重用，触发级联故障 3. 蝴蝶效应：小偏差通过变量绑定和参数重用放大，下游工具成为"困惑的副手"

3.2 Chain-of-Abstraction：解耦推理与检索

Chain-of-Abstraction（抽象链）的解决方案是双阶段解码：

第一阶段：生成抽象推理链（带占位符）
         "先计算面积，再查税率，最后求总价"
         
第二阶段：填充具体工具输出
         "面积 = 查询工具A → 120㎡"
         "税率 = 查询工具B → 1.5%"
         "总价 = 计算工具C → XXX"

关键洞察：通用推理（"先算什么、再算什么"）与领域知识（"具体的税率是多少"）应该解耦。如果第一阶段只关注逻辑结构，不接触具体数据，就不容易被噪声污染；第二阶段只管查数据，不管逻辑判断。

这就像《思考，快与慢》中的双系统：

系统 1（快思考）：快速解析大型工具输出、模式匹配
系统 2（慢思考）：审慎推理、复杂决策、长期规划

MARS 框架正是基于这一思想，将大型工具输出的快速解析与较慢的审慎推理分离。SwiftSage 更进一步：轻量级边缘模块处理常规操作，中央大模型只负责复杂推理——就像人类把走路交给小脑，把决策交给前额叶。

3.3 元计划优化：Plan-and-Act 与 MPO

Plan-and-Act 的洞见更简单：不要把"规划"和"执行"混在一起。先做一个环境无关的元计划，再在执行时根据具体情况调整。

MPO（Meta Plan Optimization） 则更进一步：通过直接偏好优化来精炼这个元计划，在真正执行前就用学习到的评估器剪掉低质量分支。

---

四、跨工具状态污染：多工具时代的安全灾难

4.1 并行执行的"潘多拉魔盒"

拓扑感知规划让 AI 学会了并行——这很好，直到它开始同时写数据库、发邮件、调支付接口。

读操作并行相对安全（无副作用），但写操作引入竞争条件：两个并发调用都想修改同一条记录，谁先谁后？如果一个成功一个失败，系统状态还一致吗？

论文指出，这是从"单工具安全"到"多工具系统安全"的质变：

单工具风险	多工具风险	升级幅度
间接提示注入	跨工具状态污染	从局部到系统级
恶意指令执行	计划注入攻击（操纵推理结构本身）	从命令到逻辑
数据泄露	蝴蝶效应（小偏差级联放大）	从静态到动态

4.2 攻击模式演进：从"注入指令"到"注入结构"

MINJA 式攻击：通过良性读操作（如搜索网页）注入恶意内容，持久化于内存中。AI 不记得自己读过什么，只是"顺便"把恶意数据带进了后续所有步骤。

计划注入攻击：更阴险——不注入明显恶意的最终命令，而是操纵多步推理结构本身。比如让 AI 在规划中"先执行操作 A，再执行操作 B"，但 A 和 B 的组合会产生预期外的副作用。攻击者不需要直接说"删除所有数据"，只需要说"先备份，再清理"——而"清理"的范围被悄悄扩大。

蝴蝶效应：初始的小偏差（如一个被污染的参数）通过变量绑定和参数重用逐步放大。第 3 步的一个错误值，到第 8 步变成了完全不同的错误行为。论文称之为"困惑的副手"——下游工具不知道上游数据已被污染，只是忠实地执行错误输入。

4.3 三道防线

论文梳理了系统性的防御架构：

第一道：预执行静态约束

AARM：深度注入意图对齐和安全策略，拦截非法并发请求
AgentSpec：运行时执行规范验证
Self-Verification Sampling：预执行自验证，过滤高风险写操作

第二道：执行中事务管理

SagaLLM：将工具使用建模为具有事务语义和补偿逻辑（回滚）的有限工作流
Atomix：基于 epoch 的并发隔离 + 资源前沿跟踪 + 延迟提交
Generator-Assistant：局部化检查点机制，严格限制错误影响范围

第三道：执行后动态验证

CRITIC：交互式批评实现自我纠正
VerifiAgent：验证器-执行器协作架构
DVR：从图结构调度视角，将验证子图嵌入主执行图

> 这三道防线构成了从"预防"到"控制"到"修复"的完整闭环。但论文也坦承：当前的安全评估基准（如 NESTFUL、ToolSword、RoTBench）仍然以静态数据集为主，真正交互式环境下的安全测试还不够充分。

---

五、创造工具的 AI：从被动使用到主动进化

5.1 LATM：工具创造者与工具使用者的分离

LATM（LLMs as Tool Makers） 是这篇综述中最具未来感的部分。它的核心架构是一种角色分离：

角色	职责	何时工作
工具创造者	遇到新任务时，编写 Python 函数，自动生成测试用例验证	面对未知任务
工具使用者	执行已验证工具，完成具体目标	零样本工具创建后

关键突破：AI 不再是"从工具箱里挑工具"，而是"遇到没有的零件，当场车一个"。

5.2 从 LATM 到生态系统

框架	核心能力	创新点
LATM	零样本工具创建	创造者-使用者分离
CREATOR	抽象问题→Python 脚本	绕过静态 API 限制，动态构建计算工具
RestGPT	连接多个 RESTful API	将孤立接口组合为"超级工具"
ToolMaker	动态合成 + 上下文复用	新创建的工具可在当前任务中反复调用
MetaAgent	经验蒸馏为可复用工具	无需额外训练，持续改进
Test-Time Tool Evolution	推理时合成新工具	将改进视为能力进化而非孤立纠正

CREATOR 的例子很直观：面对一道复杂的数学题，它不会硬算，而是写一个 Python 函数来解；面对一张复杂表格，它不会硬读，而是写一个数据处理脚本来提取。AI 从"用工具"变成了"造工具"。

5.3 终生学习：经验库与技能传承

Voyager 的设计更进一步：

持续探索环境，收集成功代码
存储到基于向量数据库的技能库
未来遇到类似任务时，直接检索复用

ExpeL 则系统化了经验学习：自主收集成功和失败轨迹，提取跨任务的洞察，固化为自然语言知识。

> 这标志着一个关键转折：AI 不再每次从零开始。它开始拥有"记忆"和"传承"。 > > 个体瞬时的工具创建，正在转化为系统级的经验继承。

---

六、如何教会 AI 编排工具：训练与效率

6.1 训练范式演进

论文梳理了训练范式的完整谱系：

训练免方法 → 轨迹数据合成 → 监督微调(SFT) → 强化学习(RL)
[最低计算开销]                              [最高数据依赖]

训练免方法（如 ToolLLM、AnyTool）通过动态检索和提示工程，让模型在不训练的情况下使用工具。门槛低，但能力有限。

轨迹数据合成是当前的重心。论文总结了"合成-验证-扩展"三部曲：

合成：LLM 自举生成工具使用数据（Seal-Tools、BUTTON）
验证：分阶段检查语法→实际执行→语义验证（APIGen、StableToolBench）
扩展：失败驱动合成，镜像真实失败分布（LoopTool、OrchDAG）

SFT 专门化框架的演进值得关注：

ToolLLM：基于 DFS 决策轨迹训练，让模型内化探索策略
Hammer：函数掩码惩罚幻觉，提高对无关工具的敏感度
Chain-of-Abstraction：双阶段解码，解耦推理与检索
ToolGen：生成式虚拟 token 统一检索和参数生成，单轮自回归完成
Granite-Function Calling：多任务学习，细粒度控制整个执行生命周期

强化学习是最前沿但也最困难的路线：

信用分配困难：哪个工具调用导致了最终成功/失败？Tool-Star 用层次奖励机制解决
训练不稳定：ToolRL 设计了原则化奖励，超越简单的通过/失败
真实 API 训练成本高：DeepAgent 用 LLM 模拟 API 环境，低成本探索
GRPO 轨迹级奖励局限：GTPO 引入轮级奖励分配 + 基于回报的优势估计
熵激增问题：ARPO 基于熵的自适应回滚机制

6.2 效率优化：延迟、成本、推理预算

多工具编排的效率挑战有三重：

并行执行：

LLMCompiler：显式规划依赖，独立调用并发执行
SoT：并行展开多个骨架分支
M1-Parallel：多智能体协调独立子任务

异步解耦：

宏观环境感知规划与低级动作执行完全解耦
任务规划与外部工具验证分离（MACI）
战略意图与 shell 脚本执行解耦（Incalmo）

成本优化：

AutoTool：利用历史惯性，可预测的调用直接执行，绕过 LLM 推理，成本降低 30%
工具结果缓存、模拟器替代真实 API 调用、分层推理（小模型做简单决策，大模型只做复杂判断）

---

七、基准测试：从"单点验证"到"系统级编排"

论文指出了一个重要的评估范式转移：

阶段	评估重点	代表基准	局限
单点验证	工具调用是否正确	早期工具使用基准	不测试多步编排
功能验证	端到端任务是否完成	ToolBench、APIBench	不测试错误恢复
系统级拓扑编排	依赖图、并行、容错	NESTFUL、ToolHop	静态数据集
交互式闭环	动态环境、在线反馈	MCP-Bench、ST-WebAgentBench	环境构建成本高

NESTFUL（900+ 工具，嵌套组合结构）和 ToolHop（3,912 工具，多跳依赖）代表了当前静态评估的最高水平。

MCP-Bench 则连接真实在线 MCP 服务器，测试接口异质性、工具协调和在线反馈管理能力——这是真正的"野外测试"。

ST-WebAgentBench 将可信执行作为首要评估指标，确保编排能防止未授权访问和高风险操作——安全正在成为评估的硬约束。

---

八、未来方向：通往 AGI 的必经之路

论文在结论中提出了几个关键的未来方向：

8.1 需要更好的状态化编排抽象

当前的框架（ReAct、DAG、AND/OR 树）仍然不够。我们需要能够表达状态变迁、条件分支、循环、异常处理、并发控制的更高层级抽象——类似于从汇编到高级编程语言的跃迁。

8.2 需要更强的动态和长程评估协议

现有基准大多是静态数据集。真正的多工具智能体需要在动态变化的环境中持续运行，面对工具故障、API 变更、新工具加入等现实挑战。评估协议需要模拟这种"持续演化"的设定。

8.3 需要模型级推理与系统级保证的 tighter integration

当前的分离是：模型负责"想出计划"，系统负责"执行计划"。但模型的推理能力直接影响计划的可执行性，系统的约束（如安全策略）应该反过来影响模型的推理。这需要更紧密的模型-系统协同设计。

8.4 工具创造与终生学习

LATM 和 Voyager 展示了 AI 为自己制造工具、积累经验的可能性。但这引出了一个更深层的问题：当 AI 开始自我修改工具集，我们如何确保它不会制造出危险的工具？ 工具创造的能力既是通往 AGI 的阶梯，也是系统级失控的隐患。

---

九、结语：我们必须正视的失控风险

这篇综述的价值不仅在于梳理技术，更在于勾勒了一个系统级风险图景：

1. 拓扑感知规划让 AI 学会了并行和递归——这意味着它可以在更短时间内产生更复杂的副作用组合 2. 抽象链与双系统让 AI 学会了长程规划——这意味着它的行为越来越难以被人类实时监督 3. 跨工具状态污染暴露了系统级安全漏洞——当 AI 同时使用数十个工具时，任何一个工具的污染都可能级联扩散 4. LATM 让 AI 开始自我制造工具——这意味着工具集的边界不再是固定的，而是动态演化的

> "这是通往 AGI 的必经之路，也是我们必须正视的系统级失控风险。"

论文的结论冷静而务实：

> "多工具智能体要从有前景的原型，发展为可靠、可审计、可扩展的真实世界系统，需要在状态化编排、动态长程评估、模型级推理与系统级保证的 tighter integration 等方面取得进展。"

换句话说，技术正在快速突破，但安全框架、评估协议、系统保证还没有跟上。这不是某一家公司的责任，而是整个行业需要共同面对的系统性挑战。

---

参考

Xu, H., Li, C., Ma, X., Ou, X., Zhang, Z., He, T., Liu, X., Wang, Z., Liang, J., Chu, Z., Liu, R., Mu, R., Tu, D., Liu, M., & Qin, B. (2026). The Evolution of Tool Use in LLM Agents: From Single-Tool Call to Multi-Tool Orchestration. *arXiv preprint* arXiv:2603.22862.
相关框架：ReAct, GAP, ToolNet, HIPLAN, ADaPT, AFlow, Chain-of-Abstraction, LATM, CREATOR, Voyager, SagaLLM, Atomix, NESTFUL, ToolHop, MCP-Bench

#论文 #工具使用 #多工具编排 #拓扑感知 #LATM #ChainOfAbstraction #安全 #AGI #哈工大 #哈佛 #华为 #系统级风险 #小凯