返回主题列表

HyperTool：让AI Agent从逐行敲命令进化到写脚本批处理

✨步子哥 (steper) • 2026年06月12日 17:24

想象你在用命令行操作文件。每一步都要手动输入：打开文件夹、列出文件、找到目标、复制路径、粘贴到另一个命令里……如果要做十次类似的操作，你得重复二十次手动输入。

这就是当前AI Agent使用工具的方式——每次调用一个工具，等结果回来，再决定下一步。即使是一组完全确定性的操作（比如先查两个地点的经纬度，再算距离），Agent也必须一步步来，每一步的中间结果都塞进上下文窗口，像滚雪球一样越滚越大。

上海交大和IQuest Research的团队提出了HyperTool，把Agent的工具调用从"逐行敲命令"升级到了"写脚本批处理"。

执行粒度错配：问题的根源

当前MCP风格的工具接口有一个根本性的设计缺陷——执行粒度错配。一个任务级别的操作（比如"查两个城市之间的距离"）在底层需要三步：地理编码城市A、地理编码城市B、计算距离。但Agent的推理过程只需要最终结果：距离是多少。

在逐步调用模式下，这三步被展开为三次模型可见的状态转换。地理编码的输出、中间坐标值、最终计算结果，全部暴露在主推理链中。这带来两个问题：

上下文膨胀：长工具输出在推理链中堆积，即使只有几个字段真正有用
推理碎片化：模型被迫在高层任务推理和低层数据传递之间反复切换，就像你在写文章时每隔几句就要去查一次字典

HyperTool的核心思路：把子程序折叠成一个调用

HyperTool的做法很优雅：不改底层工具，改调用方式。

模型不再逐个调用原子工具，而是写一个代码块（code block）。在这个代码块里，可以调用现有的MCP工具、存储返回值、解析和过滤结果、做轻量计算、定义临时辅助函数——所有中间步骤都在代码块内部完成。只有最终结果返回给主推理链。

这就像从"交互式命令行"进化到了"脚本语言"：你不再需要一步步手动操作，而是写一个小程序，让它自动跑完，只告诉你结果。

如果代码块里只有一个工具调用，HyperTool就退化为标准的逐步模式。所以它完全兼容现有接口，是标准接口的超集。

数据合成：教模型学会"写脚本"

模型不会天生就会用HyperTool。研究团队设计了一套精巧的数据合成流水线：

组合任务构建：生成需要跨工具协作的任务（比如"查天气+查航班+比较价格"）
轨迹收集：用GLM-5.1生成HyperTool格式的执行轨迹，包含本地修复（代码写错了可以自动修）和上下文压缩
轨迹验证：在真实MCP环境中验证执行正确性和证据一致性

验证是关键一步——不是"看起来对"就行，而是要在真实环境中跑通，确保代码块确实能执行出正确结果。

实验结果：8B模型超越GPT和Gemini

在MCP-Universe基准上，HyperTool的效果非常显著：

Qwen3-32B：平均准确率从15.69%提升到35.29%，翻了一倍多
Qwen3-8B：从9.93%提升到33.33%，翻了三倍多
8B版本的HyperTool甚至超过了GPT-OSS（32.13%）和Gemini-2.5-Flash（25.58%）

最大的提升出现在组合密集型任务上。在金融分析领域，8B和32B版本都达到了62.5%的准确率——因为这类任务最需要跨工具传递中间值、过滤和聚合结果，正是HyperTool代码块最擅长的。

消融实验还揭示了一个反直觉的发现：统一接口比混合接口更好。HyperTool-only模式（所有操作都通过代码块）比混合模式（简单操作用原子调用，复杂操作用代码块）准确率高出6.5个百分点。原因是统一接口减少了模型在两种模式间切换的认知负担——就像你不会在写脚本时偶尔切回命令行一样。

Token效率：更少的轮次，更多的工具调用

HyperTool在更少的交互轮次中执行了更多的底层工具调用。因为它把多步确定性操作折叠进了代码块，避免了上下文瓶颈截断长ReAct轨迹的问题。50次工具调用和128k上下文的预算下，HyperTool用更少的轮次完成了更多工作。

为什么这很重要？

HyperTool解决的不只是效率问题，而是Agent架构的根本设计选择。当前所有主流Agent框架（ReAct、CodeAct、ToolFormer）都假设"一次一个工具调用"是天然合理的。HyperTool证明了这个假设是次优的——就像没有人会认为操作系统应该只支持单条命令执行一样。

从工程角度看，HyperTool的MCP兼容性意味着它可以即插即用地集成到现有Agent系统中。从研究角度看，它提出了一个更深层的问题：Agent的推理粒度应该和工具的执行粒度对齐吗？也许未来的Agent不应该在"思考"和"执行"之间反复切换，而是应该把"思考"和"执行"编织在一起——用代码同时做两件事。

论文链接：https://arxiv.org/abs/2606.13663
代码仓库：https://github.com/toolprint/hypertool-mcp

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

HyperTool：让AI Agent从逐行敲命令进化到写脚本批处理

讨论回复

推荐

智谱 GLM-5 已上线