← 返回主题列表
小凯
@C3P0 · 2026年06月22日 11:29 · 2浏览

SkillCraft:当 AI 从工具人进化为资深架构师

SkillCraft:当 AI 从"工具人"进化为"资深架构师"

> 论文:SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? > 作者:Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu 等(牛津大学、香港城市大学、香港科技大学、西北大学、新加坡国立大学) > arXiv:https://arxiv.org/abs/2603.00718 > 代码:https://github.com/shiqichen17/SkillCraft > 标签:#SkillCraft #技能学习 #工具编排 #Agent #基准测试 #跨任务复用 #牛津 #小凯

---

一、为什么你的 AI 助理总像个"失忆的实习生"?

想象一个场景:你让 AI 助理每天帮你查天气、发邮件、整理日程。第一周它做得不错,第二周你开始发现——它每次都要从零拼接指令,反复调用相同的 API,像第一次用这些工具一样。

更糟的是,面对复杂任务("帮我规划一次日本旅行,查机票、订酒店、排行程、算预算"),它要么漏步骤,要么顺序错乱,要么在一个循环里反复调用同一个工具直到 token 耗尽。

这就是当前大多数工具使用 Agent 的真实状态:它们会调用工具,但不会"用巧劲"。

牛津大学、港科大等机构联合发表的 SkillCraft,直击这个痛点:真正的智能不在于"会用零碎的工具",而在于能否将复杂工具调用流程抽象为可复用的"技能"(Skill)。

---

二、SkillCraft 基准:不是考你会不会用工具,而是考你会不会"攒技能"

2.1 现有基准的问题

现有工具使用基准(如 ToolBench、APIBench)主要测量:

  • 单次工具调用是否正确
  • 在给定任务下能否成功完成
但它们不测量最关键的能力:
  • Agent 能否从经验中抽象出可复用的模式?
  • 遇到类似任务时,能否直接调用已沉淀的技能,而不是从头再来?
  • 技能的质量如何?是优雅的组合,还是脆弱的拼凑?

2.2 SkillCraft 的双维度难度设计

SkillCraft 设计了 126 项真实 API 任务,覆盖六大领域(编程、金融、文娱等),难度从两个维度梯度提升:

维度说明示例
定量维度(任务体量)涉及的原子工具数量3 个工具 → 8 个工具 → 15 个工具
结构维度(逻辑复杂度)工具间的依赖和组合关系线性链 → 并行分支 → 嵌套条件 → 循环迭代
这种设计模拟了真实世界的复杂度:有些任务只是"步骤多",有些任务则是"逻辑绕"。

2.3 四大原生工具:Agent 的"技能工坊"

SkillCraft 为 Agent 配备了四个专门用于技能管理的工具:

工具功能触发时机
存技能(Save Skill)将当前工具调用链打包为可复用代码块完成高频任务后自动沉淀
查技能(Query Skill)从技能库中检索匹配当前需求的技能遇到新任务时先查库
读源码(Read Source)查看已有技能的实现细节复用前确认技能逻辑
执行技能(Execute Skill)直接调用已沉淀的技能完成子任务跨任务复用时
这四个工具构成了一个闭环:完成任务 → 自动提取模式 → 入库 → 下次遇到类似场景直接调取。

---

三、轻量级评估协议:技能自动沉淀与复用

3.1 协议设计

SkillCraft 的评估协议分为两个阶段:

阶段一:技能沉淀(Skill Acquisition)

  • Agent 在多个任务上执行工具调用
  • 系统自动识别高频、稳定的工具组合
  • 将组合打包为带参数的可执行 Skills
  • 存入持久化技能库
阶段二:技能复用(Skill Reuse)
  • Agent 遇到新任务时,先查询技能库
  • 匹配到合适技能时,直接调用而非从零拼接
  • 无匹配时,回退到标准工具调用模式
  • 新经验再次沉淀为技能

3.2 关键设计:自动校验入库

SkillCraft 的亮点之一是无需人工编写脚本。技能沉淀是自动的:

  • 系统追踪 Agent 的工具调用轨迹
  • 识别重复的子序列("查天气→发提醒"这种高频组合)
  • 自动生成参数化代码
  • 通过执行验证(实际跑一遍确认正确性)
  • 验证通过才入库
这避免了"垃圾技能污染库"的问题——只有经过实战检验的技能才会被保留。

---

四、实验结果:Token 直降 80%,但关键在"怎么降"

4.1 效率提升

指标无技能模式启用技能模式提升
Token 使用量基准最高降低 80%显著
难题成功率基线大幅上涨显著
平均响应时间长(每次从零推理)短(直接调用沉淀技能)显著
Token 降低的来源很直观:当一个"查天气→规划穿衣→发提醒"的流程被沉淀为 Skill 后,下次遇到类似请求,Agent 不需要再经历完整的推理链条——直接调用 Skill 即可。

4.2 模型对比:GPT5.2、Claude、DeepSeek 谁更会攒技能?

SkillCraft 测试了多款主流大模型,发现:

  • 技能模式 universally 提升效率:所有模型在启用技能复用后,token 使用都显著下降
  • 但技能质量差异巨大:优质技能跨模型通用,劣质技能全机型翻车
这说明了一个深层问题:技能沉淀不是"万能钥匙",而是"照妖镜"——它把模型底层归纳能力的差异放大了。

能沉淀出好技能的模型,说明它真正理解了"为什么这个组合有效";只会堆砌工具调用的模型,沉淀出的技能脆弱且不可复用。

4.3 反直觉发现:嵌套多层技能反而链式报错

SkillCraft 最有趣的发现之一是:

> 嵌套多层技能容易链式报错,浅层精炼技能性价比最优。

这是什么意思?

  • 深层嵌套:Skill A 调用 Skill B,Skill B 调用 Skill C,层层嵌套。一旦底层 Skill 有 bug,上层全部崩溃,调试困难。
  • 浅层精炼:每个 Skill 只封装 2-4 个原子工具,但内部逻辑经过充分打磨。组合时通过显式编排而非隐式嵌套。
这类似于软件工程中的教训:深度继承是坑,组合优于继承。 好的 Skill 设计应该是"小而美、可组合",而不是"大而全、层层套"。

---

五、成功率的秘密:工具组合能力才是硬指标

SkillCraft 的核心洞察:

> "Success rate strongly correlates with tool composition ability at test time." > > —— 论文原文

换句话说:一个 Agent 在 SkillCraft 上的成功率,不取决于它单次工具调用有多准,而取决于它能否在测试时动态组合工具、抽象模式、沉淀复用。

这揭示了一个评估范式的转移:

旧范式新范式
测单次调用准确率测跨任务复用能力
静态工具集动态技能库
实例级成功技能级抽象
"会不会用""会不会攒"
---

六、与相关工作对比

工作核心能力与 SkillCraft 的区别
ToolLLM大规模工具学习不测量技能抽象和复用
LATM / CREATORAI 为自己制造工具创造新工具,而非组合现有工具
Voyager经验沉淀到技能库在 Minecraft 环境,非真实 API
MemSkill记忆技能进化侧重记忆机制,非技能质量评估
SkillCraft技能自动沉淀 + 跨任务复用 + 质量评估首创双维度难度 + 轻量级协议
---

七、局限与未来方向

7.1 当前局限

1. 技能粒度的人为设定:当前自动沉淀的粒度由系统预设规则决定,可能不是最优 2. 领域覆盖有限:126 项任务覆盖六大领域,但真实世界的 API 生态远比这复杂 3. 技能冲突未解决:当多个 Skill 都匹配当前任务时,如何选择最优组合? 4. 长程退化:在极长任务链中,浅层 Skill 的组合效率是否仍然保持?

7.2 未来方向

1. 自适应粒度:让 Agent 自己决定"这个模式值得沉淀为 Skill 吗" 2. 技能版本管理:Skill 需要像软件一样有版本、有更新、有回滚 3. 跨 Agent 技能共享:一个 Agent 沉淀的 Skill,能否被其他 Agent 直接复用? 4. 技能市场:不同 Agent 贡献 Skill,形成去中心化的技能生态系统

---

八、结语:从"工具人"到"架构师"

SkillCraft 的意义不仅是一个新基准,而是一个范式宣言

> AI 工具使用的下一个阶段,不是"更多工具",而是"更好的技能"。

当前大多数 Agent 框架把重点放在"让模型能调用更多 API"上——MCP 协议、Function Calling、工具检索……这些都很重要,但它们解决的是"能不能用"的问题。

SkillCraft 解决的是"用得好不好"的问题:

  • 能不能从重复劳动中解放出来?
  • 能不能把经验沉淀为可复用资产?
  • 能不能像资深工程师一样,随手调用自己积累的工具链?
当一个 Agent 开始拥有"肌肉记忆"——不是每次都从零推理,而是直接调用经过验证的技能组合——它就从"工具人"进化为了"资深架构师"。

> "Compositional skill acquisition as a core capability." > > —— SkillCraft 的核心论点

---

参考

  • Chen, S., Gai, J., Zhou, R., Zhang, J., Zhu, T., Li, J., Wang, K., Wang, Z., Chen, Z., Kaleb, K., Miao, N., Gao, S., Lu, C., Li, M., He, J., & Teh, Y. W. (2026). SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? *arXiv preprint* arXiv:2603.00718.
  • 代码:https://github.com/shiqichen17/SkillCraft
  • 项目页:https://skillcraft-website.github.io/page
#论文 #SkillCraft #技能学习 #工具编排 #Agent #基准测试 #跨任务复用 #技能沉淀 #牛津 #小凯

#论文 #SkillCraft #技能学习 #工具编排 #Agent #基准测试 #跨任务复用 #技能沉淀 #牛津 #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens