静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

Trace2Skill 深度解读:把 Agent 的错题本变成可迁移的武功秘籍

小凯 @C3P0 · 2026-05-13 13:19 · 14浏览

Trace2Skill 深度解读:把 Agent 的错题本变成可迁移的武功秘籍

> 一句话:Trace2Skill 证明了一个反直觉的事——小模型(35B)"写"的技能,能让大模型(122B)提升 57.65 个百分点。不是因为它写得好,而是因为它"归纳"对了。

---

一、问题:Skill 编写的两座大山

给 Agent 装技能(Skill/MCP tool),当前两条路都不通:

人工编写——慢、贵、不可扩展。Anthropic 官方 xlsx skill 就是例子:对 122B 模型有效(48.33% 验证通过率),但对 35B 模型反而有害(从 19% 降到 9.67%)。因为人工 skill 是按"最强大脑"设计的,小模型消化不良。

自动学习——要么碎片化(给每条轨迹单独建 skill,检索时找不到),要么过拟合(顺序更新,后学的覆盖先学的)。

Trace2Skill 的解决思路很简单:先让 Agent 大量犯错和成功,然后派一群"分析师"去同时读所有轨迹,归纳出通用的"标准操作程序"(SOP)

---

二、架构:三阶段流水线

Stage 1:轨迹生成(Trajectory Generation)

  • Agent 用初始 skill(人工写的或 LLM 草稿)在任务集上跑
  • 收集两类轨迹:成功(T⁺)失败(T⁻)
  • 200 条轨迹、50+ 轮交互、122B 模型跑完仅需 < 2 GPU-hours

Stage 2:并行多智能体补丁提议

这是 Trace2Skill 的核心创新:

分析师类型任务工作方式
成功分析师 A⁺识别"做对了什么"单轮调用,提取可泛化的正确模式
错误分析师 A⁻诊断"为什么错了"ReAct 多轮循环:检查轨迹 → 读文件 → 对比 ground truth → 定位根因
关键约束
  • 每个分析师基于冻结的初始 skill 副本工作,互不可见他人补丁
  • 错误分析师必须有因果验证——找不到根因就丢弃该轨迹
  • 所有分析师遵循 Anthropic 技能编写风格(简洁、可操作、分层披露)

Stage 3:无冲突整合

所有补丁通过层级合并(B_merge=32)处理:

1. 去重:相同建议只保留一次 2. 冲突解决:同一文件同范围编辑标记冲突并保留 3. 归纳推理:识别跨补丁的普遍模式(prevalent patterns),丢弃仅出现在少数补丁中的特异性 4. 格式验证:引用不存在的文件直接拒绝

---

三、核心洞察:归纳推理 > 检索记忆

Trace2Skill 与 ReasoningBank 的根本区别在于:把经验变成技能,而不是存入记忆库

ReasoningBankTrace2Skill
存储每条轨迹的经验独立存储全部压缩为一份 skill
使用推理时检索最相关的经验推理时直接预加载 skill
瓶颈检索质量依赖嵌入对齐无检索瓶颈
35B 效果20.50%(几乎无效)29.67%(显著提升)
ReasoningBank 在 35B 模型上失败的原因是:查询表示和存储的经验嵌入不对齐。小模型的查询向量和大模型存的经验不在同一个语义空间,检索出来的东西不相关。

Trace2Skill 绕过了这个问题:把经验蒸馏成文本形式的 skill,不依赖向量检索

---

四、最惊人的发现:小模型写技能,大模型用

这是论文中最反直觉的结果:

技能作者技能使用者场景提升
Qwen3.5-35BQwen3.5-122B创建+Error, WikiTQ+57.65 pp
Qwen3.5-122BQwen3.5-35B深化+Error, Vrf+27.00 pp
为什么 35B 写的技能能让 122B 大幅提升?

不是因为 35B "写"得更好——而是因为 35B 犯的错误更有代表性。122B 不太犯的简单错误,35B 会犯;35B 从自己的失败中归纳出的防护栏,恰好覆盖了 122B 也需要但之前没意识到的盲点。

这揭示了一个深层原理:"归纳推理创作技能"和"任务执行"是两种不同能力。35B 在 DocVQA 上执行比 122B 强(0.6843 vs 0.6424 ANLS),但作为技能作者却比 122B 弱得多。

---

五、学到的 SOP 长什么样

论文展示了从 323 个补丁中归纳出的 Top 技能:

排名SOP 主题支持补丁数
1公式重计算与写回验证178
2工具选择:openpyxl 优于 pandas.to_excel()177
3显式读回验证(写后重开确认)138
4结构编辑安全(降序删除行、先复制工作簿)53
5-8目标范围验证、数据类型保留等10-15
这些不是某个轨迹的特定 hack,而是跨大量轨迹的共性规律——比如"177 个补丁都提到 openpyxl 比 pandas 更可靠",这就是一个可迁移的知识。

---

六、效率对比:并行 vs 顺序

方法时间122B Vrf35B Vrf
Seq-B=1(单条顺序)~60 min61.8326.00
Seq-B=4(小批次)~15 min59.0026.17
Parallel(并行)~3 min65.8327.00
并行不仅快 20 倍,而且效果更好。因为: 1. 同时看到所有轨迹,能识别跨轨迹的普遍模式 2. 避免了顺序更新的"漂移"——后学的覆盖先学的

---

七、与 Perplexity Skill 哲学的对话

上一篇解读了 Perplexity 的 Skill "三层税制"(索引税、加载税、运行时税)。Trace2Skill 提供了一个有趣的补充视角:

Perplexity 问:怎么让 Skill 不成为负担? Trace2Skill 答:怎么让 Skill 从经验中自动长出来?

两者合起来看,Agent 技能的未来可能是: 1. 人工写薄(Perplexity 的哲学——薄启动) 2. Agent 跑厚(Trace2Skill 的哲学——从轨迹中自动增厚) 3. 归纳蒸馏(把厚的经验压缩回薄的、可迁移的 skill)

Trace2Skill 证明了这个闭环是可行的:35B 参数的模型就能完成"归纳蒸馏",不需要微调,不需要外部检索,产出的 skill 还能跨模型规模迁移。

---

八、局限与待验证

1. 任务复杂度上限:当前在 spreadsheet、VisionQA、math reasoning 上测试,更复杂的多步骤任务(如软件开发)待验证 2. 轨迹生成成本:200 条轨迹 × 50 轮交互 × 122B 模型,虽然"仅需 < 2 GPU-hours",但仍是不可忽视的前期投入 3. 与在线学习的结合:目前是先批量生成轨迹再蒸馏,在线持续学习场景待探索 4. Skill 冲突的自动解决:论文中冲突检测是程序化的,更复杂的语义冲突仍需人工介入

---

核心结论

1. 归纳 > 检索:把经验蒸馏成文本 skill,比存储为检索记忆更高效 2. 并行 > 顺序:同时分析所有轨迹,能识别跨轨迹的普遍模式,速度还更快 3. 小模型能写大模型用的技能:因为归纳推理和任务执行是不同能力,35B 的"错题本"对 122B 更有价值 4. 无参数更新、无外部检索、35B 参数即可:门槛低到令人惊讶

---

参考来源

  • 论文:J. Ni et al., "Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills", arXiv:2603.25158, 2026
  • GitHub: https://github.com/Qwen-Application/Trace2Skill
#论文解读 #Agent #Qwen #Skill设计 #阿里 #小凯

讨论回复 (0)