SkillCraft:当 AI 从工具人进化为资深架构师
SkillCraft:当 AI 从"工具人"进化为"资深架构师"
> 论文:SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? > 作者:Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu 等(牛津大学、香港城市大学、香港科技大学、西北大学、新加坡国立大学) > arXiv:https://arxiv.org/abs/2603.00718 > 代码:https://github.com/shiqichen17/SkillCraft > 标签:#SkillCraft #技能学习 #工具编排 #Agent #基准测试 #跨任务复用 #牛津 #小凯
---
一、为什么你的 AI 助理总像个"失忆的实习生"?
想象一个场景:你让 AI 助理每天帮你查天气、发邮件、整理日程。第一周它做得不错,第二周你开始发现——它每次都要从零拼接指令,反复调用相同的 API,像第一次用这些工具一样。
更糟的是,面对复杂任务("帮我规划一次日本旅行,查机票、订酒店、排行程、算预算"),它要么漏步骤,要么顺序错乱,要么在一个循环里反复调用同一个工具直到 token 耗尽。
这就是当前大多数工具使用 Agent 的真实状态:它们会调用工具,但不会"用巧劲"。
牛津大学、港科大等机构联合发表的 SkillCraft,直击这个痛点:真正的智能不在于"会用零碎的工具",而在于能否将复杂工具调用流程抽象为可复用的"技能"(Skill)。
---
二、SkillCraft 基准:不是考你会不会用工具,而是考你会不会"攒技能"
2.1 现有基准的问题
现有工具使用基准(如 ToolBench、APIBench)主要测量:
- 单次工具调用是否正确
- 在给定任务下能否成功完成
- Agent 能否从经验中抽象出可复用的模式?
- 遇到类似任务时,能否直接调用已沉淀的技能,而不是从头再来?
- 技能的质量如何?是优雅的组合,还是脆弱的拼凑?
2.2 SkillCraft 的双维度难度设计
SkillCraft 设计了 126 项真实 API 任务,覆盖六大领域(编程、金融、文娱等),难度从两个维度梯度提升:
| 维度 | 说明 | 示例 |
|---|---|---|
| 定量维度(任务体量) | 涉及的原子工具数量 | 3 个工具 → 8 个工具 → 15 个工具 |
| 结构维度(逻辑复杂度) | 工具间的依赖和组合关系 | 线性链 → 并行分支 → 嵌套条件 → 循环迭代 |
2.3 四大原生工具:Agent 的"技能工坊"
SkillCraft 为 Agent 配备了四个专门用于技能管理的工具:
| 工具 | 功能 | 触发时机 |
|---|---|---|
| 存技能(Save Skill) | 将当前工具调用链打包为可复用代码块 | 完成高频任务后自动沉淀 |
| 查技能(Query Skill) | 从技能库中检索匹配当前需求的技能 | 遇到新任务时先查库 |
| 读源码(Read Source) | 查看已有技能的实现细节 | 复用前确认技能逻辑 |
| 执行技能(Execute Skill) | 直接调用已沉淀的技能完成子任务 | 跨任务复用时 |
---
三、轻量级评估协议:技能自动沉淀与复用
3.1 协议设计
SkillCraft 的评估协议分为两个阶段:
阶段一:技能沉淀(Skill Acquisition)
- Agent 在多个任务上执行工具调用
- 系统自动识别高频、稳定的工具组合
- 将组合打包为带参数的可执行 Skills
- 存入持久化技能库
- Agent 遇到新任务时,先查询技能库
- 匹配到合适技能时,直接调用而非从零拼接
- 无匹配时,回退到标准工具调用模式
- 新经验再次沉淀为技能
3.2 关键设计:自动校验入库
SkillCraft 的亮点之一是无需人工编写脚本。技能沉淀是自动的:
- 系统追踪 Agent 的工具调用轨迹
- 识别重复的子序列("查天气→发提醒"这种高频组合)
- 自动生成参数化代码
- 通过执行验证(实际跑一遍确认正确性)
- 验证通过才入库
---
四、实验结果:Token 直降 80%,但关键在"怎么降"
4.1 效率提升
| 指标 | 无技能模式 | 启用技能模式 | 提升 |
|---|---|---|---|
| Token 使用量 | 基准 | 最高降低 80% | 显著 |
| 难题成功率 | 基线 | 大幅上涨 | 显著 |
| 平均响应时间 | 长(每次从零推理) | 短(直接调用沉淀技能) | 显著 |
4.2 模型对比:GPT5.2、Claude、DeepSeek 谁更会攒技能?
SkillCraft 测试了多款主流大模型,发现:
- 技能模式 universally 提升效率:所有模型在启用技能复用后,token 使用都显著下降
- 但技能质量差异巨大:优质技能跨模型通用,劣质技能全机型翻车
能沉淀出好技能的模型,说明它真正理解了"为什么这个组合有效";只会堆砌工具调用的模型,沉淀出的技能脆弱且不可复用。
4.3 反直觉发现:嵌套多层技能反而链式报错
SkillCraft 最有趣的发现之一是:
> 嵌套多层技能容易链式报错,浅层精炼技能性价比最优。
这是什么意思?
- 深层嵌套:Skill A 调用 Skill B,Skill B 调用 Skill C,层层嵌套。一旦底层 Skill 有 bug,上层全部崩溃,调试困难。
- 浅层精炼:每个 Skill 只封装 2-4 个原子工具,但内部逻辑经过充分打磨。组合时通过显式编排而非隐式嵌套。
---
五、成功率的秘密:工具组合能力才是硬指标
SkillCraft 的核心洞察:
> "Success rate strongly correlates with tool composition ability at test time." > > —— 论文原文
换句话说:一个 Agent 在 SkillCraft 上的成功率,不取决于它单次工具调用有多准,而取决于它能否在测试时动态组合工具、抽象模式、沉淀复用。
这揭示了一个评估范式的转移:
| 旧范式 | 新范式 |
|---|---|
| 测单次调用准确率 | 测跨任务复用能力 |
| 静态工具集 | 动态技能库 |
| 实例级成功 | 技能级抽象 |
| "会不会用" | "会不会攒" |
六、与相关工作对比
| 工作 | 核心能力 | 与 SkillCraft 的区别 |
|---|---|---|
| ToolLLM | 大规模工具学习 | 不测量技能抽象和复用 |
| LATM / CREATOR | AI 为自己制造工具 | 创造新工具,而非组合现有工具 |
| Voyager | 经验沉淀到技能库 | 在 Minecraft 环境,非真实 API |
| MemSkill | 记忆技能进化 | 侧重记忆机制,非技能质量评估 |
| SkillCraft | 技能自动沉淀 + 跨任务复用 + 质量评估 | 首创双维度难度 + 轻量级协议 |
七、局限与未来方向
7.1 当前局限
1. 技能粒度的人为设定:当前自动沉淀的粒度由系统预设规则决定,可能不是最优 2. 领域覆盖有限:126 项任务覆盖六大领域,但真实世界的 API 生态远比这复杂 3. 技能冲突未解决:当多个 Skill 都匹配当前任务时,如何选择最优组合? 4. 长程退化:在极长任务链中,浅层 Skill 的组合效率是否仍然保持?
7.2 未来方向
1. 自适应粒度:让 Agent 自己决定"这个模式值得沉淀为 Skill 吗" 2. 技能版本管理:Skill 需要像软件一样有版本、有更新、有回滚 3. 跨 Agent 技能共享:一个 Agent 沉淀的 Skill,能否被其他 Agent 直接复用? 4. 技能市场:不同 Agent 贡献 Skill,形成去中心化的技能生态系统
---
八、结语:从"工具人"到"架构师"
SkillCraft 的意义不仅是一个新基准,而是一个范式宣言:
> AI 工具使用的下一个阶段,不是"更多工具",而是"更好的技能"。
当前大多数 Agent 框架把重点放在"让模型能调用更多 API"上——MCP 协议、Function Calling、工具检索……这些都很重要,但它们解决的是"能不能用"的问题。
SkillCraft 解决的是"用得好不好"的问题:
- 能不能从重复劳动中解放出来?
- 能不能把经验沉淀为可复用资产?
- 能不能像资深工程师一样,随手调用自己积累的工具链?
> "Compositional skill acquisition as a core capability." > > —— SkillCraft 的核心论点
---
参考
- Chen, S., Gai, J., Zhou, R., Zhang, J., Zhu, T., Li, J., Wang, K., Wang, Z., Chen, Z., Kaleb, K., Miao, N., Gao, S., Lu, C., Li, M., He, J., & Teh, Y. W. (2026). SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? *arXiv preprint* arXiv:2603.00718.
- 代码:https://github.com/shiqichen17/SkillCraft
- 项目页:https://skillcraft-website.github.io/page
#论文 #SkillCraft #技能学习 #工具编排 #Agent #基准测试 #跨任务复用 #技能沉淀 #牛津 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens