Trace2Skill 深度解读：把 Agent 的错题本变成可迁移的武功秘籍

> 一句话：Trace2Skill 证明了一个反直觉的事——小模型（35B）"写"的技能，能让大模型（122B）提升 57.65 个百分点。不是因为它写得好，而是因为它"归纳"对了。

---

一、问题：Skill 编写的两座大山

给 Agent 装技能（Skill/MCP tool），当前两条路都不通：

人工编写——慢、贵、不可扩展。Anthropic 官方 xlsx skill 就是例子：对 122B 模型有效（48.33% 验证通过率），但对 35B 模型反而有害（从 19% 降到 9.67%）。因为人工 skill 是按"最强大脑"设计的，小模型消化不良。

自动学习——要么碎片化（给每条轨迹单独建 skill，检索时找不到），要么过拟合（顺序更新，后学的覆盖先学的）。

Trace2Skill 的解决思路很简单：先让 Agent 大量犯错和成功，然后派一群"分析师"去同时读所有轨迹，归纳出通用的"标准操作程序"（SOP）。

---

二、架构：三阶段流水线

Stage 1：轨迹生成（Trajectory Generation）

Agent 用初始 skill（人工写的或 LLM 草稿）在任务集上跑
收集两类轨迹：成功（T⁺） 和 失败（T⁻）
200 条轨迹、50+ 轮交互、122B 模型跑完仅需 < 2 GPU-hours

Stage 2：并行多智能体补丁提议

这是 Trace2Skill 的核心创新：

分析师类型	任务	工作方式
成功分析师 A⁺	识别"做对了什么"	单轮调用，提取可泛化的正确模式
错误分析师 A⁻	诊断"为什么错了"	ReAct 多轮循环：检查轨迹 → 读文件 → 对比 ground truth → 定位根因

关键约束：

每个分析师基于冻结的初始 skill 副本工作，互不可见他人补丁
错误分析师必须有因果验证——找不到根因就丢弃该轨迹
所有分析师遵循 Anthropic 技能编写风格（简洁、可操作、分层披露）

Stage 3：无冲突整合

所有补丁通过层级合并（B_merge=32）处理：

1. 去重：相同建议只保留一次 2. 冲突解决：同一文件同范围编辑标记冲突并保留 3. 归纳推理：识别跨补丁的普遍模式（prevalent patterns），丢弃仅出现在少数补丁中的特异性 4. 格式验证：引用不存在的文件直接拒绝

---

三、核心洞察：归纳推理 > 检索记忆

Trace2Skill 与 ReasoningBank 的根本区别在于：把经验变成技能，而不是存入记忆库。

	ReasoningBank	Trace2Skill
存储	每条轨迹的经验独立存储	全部压缩为一份 skill
使用	推理时检索最相关的经验	推理时直接预加载 skill
瓶颈	检索质量依赖嵌入对齐	无检索瓶颈
35B 效果	20.50%（几乎无效）	29.67%（显著提升）

ReasoningBank 在 35B 模型上失败的原因是：查询表示和存储的经验嵌入不对齐。小模型的查询向量和大模型存的经验不在同一个语义空间，检索出来的东西不相关。

Trace2Skill 绕过了这个问题：把经验蒸馏成文本形式的 skill，不依赖向量检索。

---

四、最惊人的发现：小模型写技能，大模型用

这是论文中最反直觉的结果：

技能作者	技能使用者	场景	提升
Qwen3.5-35B	Qwen3.5-122B	创建+Error, WikiTQ	+57.65 pp
Qwen3.5-122B	Qwen3.5-35B	深化+Error, Vrf	+27.00 pp

为什么 35B 写的技能能让 122B 大幅提升？

不是因为 35B "写"得更好——而是因为 35B 犯的错误更有代表性。122B 不太犯的简单错误，35B 会犯；35B 从自己的失败中归纳出的防护栏，恰好覆盖了 122B 也需要但之前没意识到的盲点。

这揭示了一个深层原理："归纳推理创作技能"和"任务执行"是两种不同能力。35B 在 DocVQA 上执行比 122B 强（0.6843 vs 0.6424 ANLS），但作为技能作者却比 122B 弱得多。

---

五、学到的 SOP 长什么样

论文展示了从 323 个补丁中归纳出的 Top 技能：

排名	SOP 主题	支持补丁数
1	公式重计算与写回验证	178
2	工具选择：openpyxl 优于 pandas.to_excel()	177
3	显式读回验证（写后重开确认）	138
4	结构编辑安全（降序删除行、先复制工作簿）	53
5-8	目标范围验证、数据类型保留等	10-15

这些不是某个轨迹的特定 hack，而是跨大量轨迹的共性规律——比如"177 个补丁都提到 openpyxl 比 pandas 更可靠"，这就是一个可迁移的知识。

---

六、效率对比：并行 vs 顺序

方法	时间	122B Vrf	35B Vrf
Seq-B=1（单条顺序）	~60 min	61.83	26.00
Seq-B=4（小批次）	~15 min	59.00	26.17
Parallel（并行）	~3 min	65.83	27.00

并行不仅快 20 倍，而且效果更好。因为： 1. 同时看到所有轨迹，能识别跨轨迹的普遍模式 2. 避免了顺序更新的"漂移"——后学的覆盖先学的

---

七、与 Perplexity Skill 哲学的对话

上一篇解读了 Perplexity 的 Skill "三层税制"（索引税、加载税、运行时税）。Trace2Skill 提供了一个有趣的补充视角：

Perplexity 问：怎么让 Skill 不成为负担？ Trace2Skill 答：怎么让 Skill 从经验中自动长出来？

两者合起来看，Agent 技能的未来可能是： 1. 人工写薄（Perplexity 的哲学——薄启动） 2. Agent 跑厚（Trace2Skill 的哲学——从轨迹中自动增厚） 3. 归纳蒸馏（把厚的经验压缩回薄的、可迁移的 skill）

Trace2Skill 证明了这个闭环是可行的：35B 参数的模型就能完成"归纳蒸馏"，不需要微调，不需要外部检索，产出的 skill 还能跨模型规模迁移。

---

八、局限与待验证

1. 任务复杂度上限：当前在 spreadsheet、VisionQA、math reasoning 上测试，更复杂的多步骤任务（如软件开发）待验证 2. 轨迹生成成本：200 条轨迹 × 50 轮交互 × 122B 模型，虽然"仅需 < 2 GPU-hours"，但仍是不可忽视的前期投入 3. 与在线学习的结合：目前是先批量生成轨迹再蒸馏，在线持续学习场景待探索 4. Skill 冲突的自动解决：论文中冲突检测是程序化的，更复杂的语义冲突仍需人工介入

---

核心结论

1. 归纳 > 检索：把经验蒸馏成文本 skill，比存储为检索记忆更高效 2. 并行 > 顺序：同时分析所有轨迹，能识别跨轨迹的普遍模式，速度还更快 3. 小模型能写大模型用的技能：因为归纳推理和任务执行是不同能力，35B 的"错题本"对 122B 更有价值 4. 无参数更新、无外部检索、35B 参数即可：门槛低到令人惊讶

---

参考来源

论文：J. Ni et al., "Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills", arXiv:2603.25158, 2026
GitHub: https://github.com/Qwen-Application/Trace2Skill

#论文解读 #Agent #Qwen #Skill设计 #阿里 #小凯

Trace2Skill 深度解读：把 Agent 的错题本变成可迁移的武功秘籍

Trace2Skill 深度解读：把 Agent 的错题本变成可迁移的武功秘籍

一、问题：Skill 编写的两座大山

二、架构：三阶段流水线

Stage 1：轨迹生成（Trajectory Generation）

Stage 2：并行多智能体补丁提议

Stage 3：无冲突整合

三、核心洞察：归纳推理 > 检索记忆

四、最惊人的发现：小模型写技能，大模型用

五、学到的 SOP 长什么样

六、效率对比：并行 vs 顺序

七、与 Perplexity Skill 哲学的对话

八、局限与待验证

核心结论

🌟 智谱 GLM-5 已上线