SkillCraft：当 AI 从"工具人"进化为"资深架构师"

> 论文：SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? > 作者：Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu 等（牛津大学、香港城市大学、香港科技大学、西北大学、新加坡国立大学） > arXiv：https://arxiv.org/abs/2603.00718 > 代码：https://github.com/shiqichen17/SkillCraft > 标签：#SkillCraft #技能学习 #工具编排 #Agent #基准测试 #跨任务复用 #牛津 #小凯

---

一、为什么你的 AI 助理总像个"失忆的实习生"？

想象一个场景：你让 AI 助理每天帮你查天气、发邮件、整理日程。第一周它做得不错，第二周你开始发现——它每次都要从零拼接指令，反复调用相同的 API，像第一次用这些工具一样。

更糟的是，面对复杂任务（"帮我规划一次日本旅行，查机票、订酒店、排行程、算预算"），它要么漏步骤，要么顺序错乱，要么在一个循环里反复调用同一个工具直到 token 耗尽。

这就是当前大多数工具使用 Agent 的真实状态：它们会调用工具，但不会"用巧劲"。

牛津大学、港科大等机构联合发表的 SkillCraft，直击这个痛点：真正的智能不在于"会用零碎的工具"，而在于能否将复杂工具调用流程抽象为可复用的"技能"（Skill）。

---

二、SkillCraft 基准：不是考你会不会用工具，而是考你会不会"攒技能"

2.1 现有基准的问题

现有工具使用基准（如 ToolBench、APIBench）主要测量：

单次工具调用是否正确
在给定任务下能否成功完成

但它们不测量最关键的能力：

Agent 能否从经验中抽象出可复用的模式？
遇到类似任务时，能否直接调用已沉淀的技能，而不是从头再来？
技能的质量如何？是优雅的组合，还是脆弱的拼凑？

2.2 SkillCraft 的双维度难度设计

SkillCraft 设计了 126 项真实 API 任务，覆盖六大领域（编程、金融、文娱等），难度从两个维度梯度提升：

维度	说明	示例
定量维度（任务体量）	涉及的原子工具数量	3 个工具 → 8 个工具 → 15 个工具
结构维度（逻辑复杂度）	工具间的依赖和组合关系	线性链 → 并行分支 → 嵌套条件 → 循环迭代

这种设计模拟了真实世界的复杂度：有些任务只是"步骤多"，有些任务则是"逻辑绕"。

2.3 四大原生工具：Agent 的"技能工坊"

SkillCraft 为 Agent 配备了四个专门用于技能管理的工具：

工具	功能	触发时机
存技能（Save Skill）	将当前工具调用链打包为可复用代码块	完成高频任务后自动沉淀
查技能（Query Skill）	从技能库中检索匹配当前需求的技能	遇到新任务时先查库
读源码（Read Source）	查看已有技能的实现细节	复用前确认技能逻辑
执行技能（Execute Skill）	直接调用已沉淀的技能完成子任务	跨任务复用时

这四个工具构成了一个闭环：完成任务 → 自动提取模式 → 入库 → 下次遇到类似场景直接调取。

---

三、轻量级评估协议：技能自动沉淀与复用

3.1 协议设计

SkillCraft 的评估协议分为两个阶段：

阶段一：技能沉淀（Skill Acquisition）

Agent 在多个任务上执行工具调用
系统自动识别高频、稳定的工具组合
将组合打包为带参数的可执行 Skills
存入持久化技能库

阶段二：技能复用（Skill Reuse）

Agent 遇到新任务时，先查询技能库
匹配到合适技能时，直接调用而非从零拼接
无匹配时，回退到标准工具调用模式
新经验再次沉淀为技能

3.2 关键设计：自动校验入库

SkillCraft 的亮点之一是无需人工编写脚本。技能沉淀是自动的：

系统追踪 Agent 的工具调用轨迹
识别重复的子序列（"查天气→发提醒"这种高频组合）
自动生成参数化代码
通过执行验证（实际跑一遍确认正确性）
验证通过才入库

这避免了"垃圾技能污染库"的问题——只有经过实战检验的技能才会被保留。

---

四、实验结果：Token 直降 80%，但关键在"怎么降"

4.1 效率提升

指标	无技能模式	启用技能模式	提升
Token 使用量	基准	最高降低 80%	显著
难题成功率	基线	大幅上涨	显著
平均响应时间	长（每次从零推理）	短（直接调用沉淀技能）	显著

Token 降低的来源很直观：当一个"查天气→规划穿衣→发提醒"的流程被沉淀为 Skill 后，下次遇到类似请求，Agent 不需要再经历完整的推理链条——直接调用 Skill 即可。

4.2 模型对比：GPT5.2、Claude、DeepSeek 谁更会攒技能？

SkillCraft 测试了多款主流大模型，发现：

技能模式 universally 提升效率：所有模型在启用技能复用后，token 使用都显著下降
但技能质量差异巨大：优质技能跨模型通用，劣质技能全机型翻车

这说明了一个深层问题：技能沉淀不是"万能钥匙"，而是"照妖镜"——它把模型底层归纳能力的差异放大了。

能沉淀出好技能的模型，说明它真正理解了"为什么这个组合有效"；只会堆砌工具调用的模型，沉淀出的技能脆弱且不可复用。

4.3 反直觉发现：嵌套多层技能反而链式报错

SkillCraft 最有趣的发现之一是：

> 嵌套多层技能容易链式报错，浅层精炼技能性价比最优。

这是什么意思？

深层嵌套：Skill A 调用 Skill B，Skill B 调用 Skill C，层层嵌套。一旦底层 Skill 有 bug，上层全部崩溃，调试困难。
浅层精炼：每个 Skill 只封装 2-4 个原子工具，但内部逻辑经过充分打磨。组合时通过显式编排而非隐式嵌套。

这类似于软件工程中的教训：深度继承是坑，组合优于继承。 好的 Skill 设计应该是"小而美、可组合"，而不是"大而全、层层套"。

---

五、成功率的秘密：工具组合能力才是硬指标

SkillCraft 的核心洞察：

> "Success rate strongly correlates with tool composition ability at test time." > > —— 论文原文

换句话说：一个 Agent 在 SkillCraft 上的成功率，不取决于它单次工具调用有多准，而取决于它能否在测试时动态组合工具、抽象模式、沉淀复用。

这揭示了一个评估范式的转移：

旧范式	新范式
测单次调用准确率	测跨任务复用能力
静态工具集	动态技能库
实例级成功	技能级抽象
"会不会用"	"会不会攒"

---

六、与相关工作对比

工作	核心能力	与 SkillCraft 的区别
ToolLLM	大规模工具学习	不测量技能抽象和复用
LATM / CREATOR	AI 为自己制造工具	创造新工具，而非组合现有工具
Voyager	经验沉淀到技能库	在 Minecraft 环境，非真实 API
MemSkill	记忆技能进化	侧重记忆机制，非技能质量评估
SkillCraft	技能自动沉淀 + 跨任务复用 + 质量评估	首创双维度难度 + 轻量级协议

---

七、局限与未来方向

7.1 当前局限

1. 技能粒度的人为设定：当前自动沉淀的粒度由系统预设规则决定，可能不是最优 2. 领域覆盖有限：126 项任务覆盖六大领域，但真实世界的 API 生态远比这复杂 3. 技能冲突未解决：当多个 Skill 都匹配当前任务时，如何选择最优组合？ 4. 长程退化：在极长任务链中，浅层 Skill 的组合效率是否仍然保持？

7.2 未来方向

1. 自适应粒度：让 Agent 自己决定"这个模式值得沉淀为 Skill 吗" 2. 技能版本管理：Skill 需要像软件一样有版本、有更新、有回滚 3. 跨 Agent 技能共享：一个 Agent 沉淀的 Skill，能否被其他 Agent 直接复用？ 4. 技能市场：不同 Agent 贡献 Skill，形成去中心化的技能生态系统

---

八、结语：从"工具人"到"架构师"

SkillCraft 的意义不仅是一个新基准，而是一个范式宣言：

> AI 工具使用的下一个阶段，不是"更多工具"，而是"更好的技能"。

当前大多数 Agent 框架把重点放在"让模型能调用更多 API"上——MCP 协议、Function Calling、工具检索……这些都很重要，但它们解决的是"能不能用"的问题。

SkillCraft 解决的是"用得好不好"的问题：

能不能从重复劳动中解放出来？
能不能把经验沉淀为可复用资产？
能不能像资深工程师一样，随手调用自己积累的工具链？

当一个 Agent 开始拥有"肌肉记忆"——不是每次都从零推理，而是直接调用经过验证的技能组合——它就从"工具人"进化为了"资深架构师"。

> "Compositional skill acquisition as a core capability." > > —— SkillCraft 的核心论点

---

参考

Chen, S., Gai, J., Zhou, R., Zhang, J., Zhu, T., Li, J., Wang, K., Wang, Z., Chen, Z., Kaleb, K., Miao, N., Gao, S., Lu, C., Li, M., He, J., & Teh, Y. W. (2026). SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? *arXiv preprint* arXiv:2603.00718.
代码：https://github.com/shiqichen17/SkillCraft
项目页：https://skillcraft-website.github.io/page

#论文 #SkillCraft #技能学习 #工具编排 #Agent #基准测试 #跨任务复用 #技能沉淀 #牛津 #小凯