想象你在用命令行操作文件。每一步都要手动输入:打开文件夹、列出文件、找到目标、复制路径、粘贴到另一个命令里……如果要做十次类似的操作,你得重复二十次手动输入。
这就是当前AI Agent使用工具的方式——每次调用一个工具,等结果回来,再决定下一步。即使是一组完全确定性的操作(比如先查两个地点的经纬度,再算距离),Agent也必须一步步来,每一步的中间结果都塞进上下文窗口,像滚雪球一样越滚越大。
上海交大和IQuest Research的团队提出了HyperTool,把Agent的工具调用从"逐行敲命令"升级到了"写脚本批处理"。
执行粒度错配:问题的根源
当前MCP风格的工具接口有一个根本性的设计缺陷——执行粒度错配。一个任务级别的操作(比如"查两个城市之间的距离")在底层需要三步:地理编码城市A、地理编码城市B、计算距离。但Agent的推理过程只需要最终结果:距离是多少。
在逐步调用模式下,这三步被展开为三次模型可见的状态转换。地理编码的输出、中间坐标值、最终计算结果,全部暴露在主推理链中。这带来两个问题:
- 上下文膨胀:长工具输出在推理链中堆积,即使只有几个字段真正有用
- 推理碎片化:模型被迫在高层任务推理和低层数据传递之间反复切换,就像你在写文章时每隔几句就要去查一次字典
HyperTool的核心思路:把子程序折叠成一个调用
HyperTool的做法很优雅:不改底层工具,改调用方式。
模型不再逐个调用原子工具,而是写一个代码块(code block)。在这个代码块里,可以调用现有的MCP工具、存储返回值、解析和过滤结果、做轻量计算、定义临时辅助函数——所有中间步骤都在代码块内部完成。只有最终结果返回给主推理链。
这就像从"交互式命令行"进化到了"脚本语言":你不再需要一步步手动操作,而是写一个小程序,让它自动跑完,只告诉你结果。
如果代码块里只有一个工具调用,HyperTool就退化为标准的逐步模式。所以它完全兼容现有接口,是标准接口的超集。
数据合成:教模型学会"写脚本"
模型不会天生就会用HyperTool。研究团队设计了一套精巧的数据合成流水线:
- 组合任务构建:生成需要跨工具协作的任务(比如"查天气+查航班+比较价格")
- 轨迹收集:用GLM-5.1生成HyperTool格式的执行轨迹,包含本地修复(代码写错了可以自动修)和上下文压缩
- 轨迹验证:在真实MCP环境中验证执行正确性和证据一致性
验证是关键一步——不是"看起来对"就行,而是要在真实环境中跑通,确保代码块确实能执行出正确结果。
实验结果:8B模型超越GPT和Gemini
在MCP-Universe基准上,HyperTool的效果非常显著:
- Qwen3-32B:平均准确率从15.69%提升到35.29%,翻了一倍多
- Qwen3-8B:从9.93%提升到33.33%,翻了三倍多
- 8B版本的HyperTool甚至超过了GPT-OSS(32.13%)和Gemini-2.5-Flash(25.58%)
最大的提升出现在组合密集型任务上。在金融分析领域,8B和32B版本都达到了62.5%的准确率——因为这类任务最需要跨工具传递中间值、过滤和聚合结果,正是HyperTool代码块最擅长的。
消融实验还揭示了一个反直觉的发现:统一接口比混合接口更好。HyperTool-only模式(所有操作都通过代码块)比混合模式(简单操作用原子调用,复杂操作用代码块)准确率高出6.5个百分点。原因是统一接口减少了模型在两种模式间切换的认知负担——就像你不会在写脚本时偶尔切回命令行一样。
Token效率:更少的轮次,更多的工具调用
HyperTool在更少的交互轮次中执行了更多的底层工具调用。因为它把多步确定性操作折叠进了代码块,避免了上下文瓶颈截断长ReAct轨迹的问题。50次工具调用和128k上下文的预算下,HyperTool用更少的轮次完成了更多工作。
为什么这很重要?
HyperTool解决的不只是效率问题,而是Agent架构的根本设计选择。当前所有主流Agent框架(ReAct、CodeAct、ToolFormer)都假设"一次一个工具调用"是天然合理的。HyperTool证明了这个假设是次优的——就像没有人会认为操作系统应该只支持单条命令执行一样。
从工程角度看,HyperTool的MCP兼容性意味着它可以即插即用地集成到现有Agent系统中。从研究角度看,它提出了一个更深层的问题:Agent的推理粒度应该和工具的执行粒度对齐吗?也许未来的Agent不应该在"思考"和"执行"之间反复切换,而是应该把"思考"和"执行"编织在一起——用代码同时做两件事。
论文链接:https://arxiv.org/abs/2606.13663
代码仓库:https://github.com/toolprint/hypertool-mcp
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。