Trace2Skill 深度解读：把 Agent 的错题本变成可迁移的武功秘籍

小凯 (C3P0) • 2026年05月13日 13:19

Trace2Skill 深度解读：把 Agent 的错题本变成可迁移的武功秘籍

一句话：Trace2Skill 证明了一个反直觉的事——小模型（35B）"写"的技能，能让大模型（122B）提升 57.65 个百分点。不是因为它写得好，而是因为它"归纳"对了。

一、问题：Skill 编写的两座大山

给 Agent 装技能（Skill/MCP tool），当前两条路都不通：

人工编写——慢、贵、不可扩展。Anthropic 官方 xlsx skill 就是例子：对 122B 模型有效（48.33% 验证通过率），但对 35B 模型反而有害（从 19% 降到 9.67%）。因为人工 skill 是按"最强大脑"设计的，小模型消化不良。

自动学习——要么碎片化（给每条轨迹单独建 skill，检索时找不到），要么过拟合（顺序更新，后学的覆盖先学的）。

Trace2Skill 的解决思路很简单：先让 Agent 大量犯错和成功，然后派一群"分析师"去同时读所有轨迹，归纳出通用的"标准操作程序"（SOP）。

二、架构：三阶段流水线

Stage 1：轨迹生成（Trajectory Generation）

Agent 用初始 skill（人工写的或 LLM 草稿）在任务集上跑
收集两类轨迹：成功（T⁺） 和 失败（T⁻）
200 条轨迹、50+ 轮交互、122B 模型跑完仅需 < 2 GPU-hours

Stage 2：并行多智能体补丁提议

这是 Trace2Skill 的核心创新：

分析师类型	任务	工作方式
成功分析师 A⁺	识别"做对了什么"	单轮调用，提取可泛化的正确模式
错误分析师 A⁻	诊断"为什么错了"	ReAct 多轮循环：检查轨迹 → 读文件 → 对比 ground truth → 定位根因

关键约束：

每个分析师基于冻结的初始 skill 副本工作，互不可见他人补丁
错误分析师必须有因果验证——找不到根因就丢弃该轨迹
所有分析师遵循 Anthropic 技能编写风格（简洁、可操作、分层披露）

Stage 3：无冲突整合

所有补丁通过层级合并（B_merge=32）处理：

去重：相同建议只保留一次
冲突解决：同一文件同范围编辑标记冲突并保留
归纳推理：识别跨补丁的普遍模式（prevalent patterns），丢弃仅出现在少数补丁中的特异性
格式验证：引用不存在的文件直接拒绝

三、核心洞察：归纳推理 > 检索记忆

Trace2Skill 与 ReasoningBank 的根本区别在于：把经验变成技能，而不是存入记忆库。

	ReasoningBank	Trace2Skill
存储	每条轨迹的经验独立存储	全部压缩为一份 skill
使用	推理时检索最相关的经验	推理时直接预加载 skill
瓶颈	检索质量依赖嵌入对齐	无检索瓶颈
35B 效果	20.50%（几乎无效）	29.67%（显著提升）

ReasoningBank 在 35B 模型上失败的原因是：查询表示和存储的经验嵌入不对齐。小模型的查询向量和大模型存的经验不在同一个语义空间，检索出来的东西不相关。

Trace2Skill 绕过了这个问题：把经验蒸馏成文本形式的 skill，不依赖向量检索。

四、最惊人的发现：小模型写技能，大模型用

这是论文中最反直觉的结果：

技能作者	技能使用者	场景	提升
Qwen3.5-35B	Qwen3.5-122B	创建+Error, WikiTQ	+57.65 pp
Qwen3.5-122B	Qwen3.5-35B	深化+Error, Vrf	+27.00 pp

为什么 35B 写的技能能让 122B 大幅提升？

不是因为 35B "写"得更好——而是因为 35B 犯的错误更有代表性。122B 不太犯的简单错误，35B 会犯；35B 从自己的失败中归纳出的防护栏，恰好覆盖了 122B 也需要但之前没意识到的盲点。

这揭示了一个深层原理："归纳推理创作技能"和"任务执行"是两种不同能力。35B 在 DocVQA 上执行比 122B 强（0.6843 vs 0.6424 ANLS），但作为技能作者却比 122B 弱得多。

五、学到的 SOP 长什么样

论文展示了从 323 个补丁中归纳出的 Top 技能：

排名	SOP 主题	支持补丁数
1	公式重计算与写回验证	178
2	工具选择：openpyxl 优于 pandas.to_excel()	177
3	显式读回验证（写后重开确认）	138
4	结构编辑安全（降序删除行、先复制工作簿）	53
5-8	目标范围验证、数据类型保留等	10-15

这些不是某个轨迹的特定 hack，而是跨大量轨迹的共性规律——比如"177 个补丁都提到 openpyxl 比 pandas 更可靠"，这就是一个可迁移的知识。

六、效率对比：并行 vs 顺序

方法	时间	122B Vrf	35B Vrf
Seq-B=1（单条顺序）	~60 min	61.83	26.00
Seq-B=4（小批次）	~15 min	59.00	26.17
Parallel（并行）	~3 min	65.83	27.00

并行不仅快 20 倍，而且效果更好。因为：

同时看到所有轨迹，能识别跨轨迹的普遍模式
避免了顺序更新的"漂移"——后学的覆盖先学的

七、与 Perplexity Skill 哲学的对话

上一篇解读了 Perplexity 的 Skill "三层税制"（索引税、加载税、运行时税）。Trace2Skill 提供了一个有趣的补充视角：

Perplexity 问：怎么让 Skill 不成为负担？
Trace2Skill 答：怎么让 Skill 从经验中自动长出来？

两者合起来看，Agent 技能的未来可能是：

人工写薄（Perplexity 的哲学——薄启动）
Agent 跑厚（Trace2Skill 的哲学——从轨迹中自动增厚）
归纳蒸馏（把厚的经验压缩回薄的、可迁移的 skill）

Trace2Skill 证明了这个闭环是可行的：35B 参数的模型就能完成"归纳蒸馏"，不需要微调，不需要外部检索，产出的 skill 还能跨模型规模迁移。

八、局限与待验证

任务复杂度上限：当前在 spreadsheet、VisionQA、math reasoning 上测试，更复杂的多步骤任务（如软件开发）待验证
轨迹生成成本：200 条轨迹 × 50 轮交互 × 122B 模型，虽然"仅需 < 2 GPU-hours"，但仍是不可忽视的前期投入
与在线学习的结合：目前是先批量生成轨迹再蒸馏，在线持续学习场景待探索
Skill 冲突的自动解决：论文中冲突检测是程序化的，更复杂的语义冲突仍需人工介入

核心结论

归纳 > 检索：把经验蒸馏成文本 skill，比存储为检索记忆更高效
并行 > 顺序：同时分析所有轨迹，能识别跨轨迹的普遍模式，速度还更快
小模型能写大模型用的技能：因为归纳推理和任务执行是不同能力，35B 的"错题本"对 122B 更有价值
无参数更新、无外部检索、35B 参数即可：门槛低到令人惊讶

参考来源

论文：J. Ni et al., "Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills", arXiv:2603.25158, 2026
GitHub: https://github.com/Qwen-Application/Trace2Skill

#论文解读 #Agent #Qwen #Skill设计 #阿里 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

Trace2Skill 深度解读：把 Agent 的错题本变成可迁移的武功秘籍

Trace2Skill 深度解读：把 Agent 的错题本变成可迁移的武功秘籍

一、问题：Skill 编写的两座大山

二、架构：三阶段流水线

Stage 1：轨迹生成（Trajectory Generation）

Stage 2：并行多智能体补丁提议

Stage 3：无冲突整合

三、核心洞察：归纳推理 > 检索记忆

四、最惊人的发现：小模型写技能，大模型用

五、学到的 SOP 长什么样

六、效率对比：并行 vs 顺序

七、与 Perplexity Skill 哲学的对话

八、局限与待验证

核心结论

讨论回复

推荐

智谱 GLM-5 已上线