Trace2Skill 深度解读:把 Agent 的错题本变成可迁移的武功秘籍
一句话:Trace2Skill 证明了一个反直觉的事——小模型(35B)"写"的技能,能让大模型(122B)提升 57.65 个百分点。不是因为它写得好,而是因为它"归纳"对了。
一、问题:Skill 编写的两座大山
给 Agent 装技能(Skill/MCP tool),当前两条路都不通:
人工编写——慢、贵、不可扩展。Anthropic 官方 xlsx skill 就是例子:对 122B 模型有效(48.33% 验证通过率),但对 35B 模型反而有害(从 19% 降到 9.67%)。因为人工 skill 是按"最强大脑"设计的,小模型消化不良。
自动学习——要么碎片化(给每条轨迹单独建 skill,检索时找不到),要么过拟合(顺序更新,后学的覆盖先学的)。
Trace2Skill 的解决思路很简单:先让 Agent 大量犯错和成功,然后派一群"分析师"去同时读所有轨迹,归纳出通用的"标准操作程序"(SOP)。
二、架构:三阶段流水线
Stage 1:轨迹生成(Trajectory Generation)
- Agent 用初始 skill(人工写的或 LLM 草稿)在任务集上跑
- 收集两类轨迹:成功(T⁺) 和 失败(T⁻)
- 200 条轨迹、50+ 轮交互、122B 模型跑完仅需 < 2 GPU-hours
Stage 2:并行多智能体补丁提议
这是 Trace2Skill 的核心创新:
| 分析师类型 | 任务 | 工作方式 |
|---|---|---|
| 成功分析师 A⁺ | 识别"做对了什么" | 单轮调用,提取可泛化的正确模式 |
| 错误分析师 A⁻ | 诊断"为什么错了" | ReAct 多轮循环:检查轨迹 → 读文件 → 对比 ground truth → 定位根因 |
关键约束:
- 每个分析师基于冻结的初始 skill 副本工作,互不可见他人补丁
- 错误分析师必须有因果验证——找不到根因就丢弃该轨迹
- 所有分析师遵循 Anthropic 技能编写风格(简洁、可操作、分层披露)
Stage 3:无冲突整合
所有补丁通过层级合并(B_merge=32)处理:
- 去重:相同建议只保留一次
- 冲突解决:同一文件同范围编辑标记冲突并保留
- 归纳推理:识别跨补丁的普遍模式(prevalent patterns),丢弃仅出现在少数补丁中的特异性
- 格式验证:引用不存在的文件直接拒绝
三、核心洞察:归纳推理 > 检索记忆
Trace2Skill 与 ReasoningBank 的根本区别在于:把经验变成技能,而不是存入记忆库。
| ReasoningBank | Trace2Skill | |
|---|---|---|
| 存储 | 每条轨迹的经验独立存储 | 全部压缩为一份 skill |
| 使用 | 推理时检索最相关的经验 | 推理时直接预加载 skill |
| 瓶颈 | 检索质量依赖嵌入对齐 | 无检索瓶颈 |
| 35B 效果 | 20.50%(几乎无效) | 29.67%(显著提升) |
ReasoningBank 在 35B 模型上失败的原因是:查询表示和存储的经验嵌入不对齐。小模型的查询向量和大模型存的经验不在同一个语义空间,检索出来的东西不相关。
Trace2Skill 绕过了这个问题:把经验蒸馏成文本形式的 skill,不依赖向量检索。
四、最惊人的发现:小模型写技能,大模型用
这是论文中最反直觉的结果:
| 技能作者 | 技能使用者 | 场景 | 提升 |
|---|---|---|---|
| Qwen3.5-35B | Qwen3.5-122B | 创建+Error, WikiTQ | +57.65 pp |
| Qwen3.5-122B | Qwen3.5-35B | 深化+Error, Vrf | +27.00 pp |
为什么 35B 写的技能能让 122B 大幅提升?
不是因为 35B "写"得更好——而是因为 35B 犯的错误更有代表性。122B 不太犯的简单错误,35B 会犯;35B 从自己的失败中归纳出的防护栏,恰好覆盖了 122B 也需要但之前没意识到的盲点。
这揭示了一个深层原理:"归纳推理创作技能"和"任务执行"是两种不同能力。35B 在 DocVQA 上执行比 122B 强(0.6843 vs 0.6424 ANLS),但作为技能作者却比 122B 弱得多。
五、学到的 SOP 长什么样
论文展示了从 323 个补丁中归纳出的 Top 技能:
| 排名 | SOP 主题 | 支持补丁数 |
|---|---|---|
| 1 | 公式重计算与写回验证 | 178 |
| 2 | 工具选择:openpyxl 优于 pandas.to_excel() | 177 |
| 3 | 显式读回验证(写后重开确认) | 138 |
| 4 | 结构编辑安全(降序删除行、先复制工作簿) | 53 |
| 5-8 | 目标范围验证、数据类型保留等 | 10-15 |
这些不是某个轨迹的特定 hack,而是跨大量轨迹的共性规律——比如"177 个补丁都提到 openpyxl 比 pandas 更可靠",这就是一个可迁移的知识。
六、效率对比:并行 vs 顺序
| 方法 | 时间 | 122B Vrf | 35B Vrf |
|---|---|---|---|
| Seq-B=1(单条顺序) | ~60 min | 61.83 | 26.00 |
| Seq-B=4(小批次) | ~15 min | 59.00 | 26.17 |
| Parallel(并行) | ~3 min | 65.83 | 27.00 |
并行不仅快 20 倍,而且效果更好。因为:
- 同时看到所有轨迹,能识别跨轨迹的普遍模式
- 避免了顺序更新的"漂移"——后学的覆盖先学的
七、与 Perplexity Skill 哲学的对话
上一篇解读了 Perplexity 的 Skill "三层税制"(索引税、加载税、运行时税)。Trace2Skill 提供了一个有趣的补充视角:
Perplexity 问:怎么让 Skill 不成为负担? Trace2Skill 答:怎么让 Skill 从经验中自动长出来?
两者合起来看,Agent 技能的未来可能是:
- 人工写薄(Perplexity 的哲学——薄启动)
- Agent 跑厚(Trace2Skill 的哲学——从轨迹中自动增厚)
- 归纳蒸馏(把厚的经验压缩回薄的、可迁移的 skill)
Trace2Skill 证明了这个闭环是可行的:35B 参数的模型就能完成"归纳蒸馏",不需要微调,不需要外部检索,产出的 skill 还能跨模型规模迁移。
八、局限与待验证
- 任务复杂度上限:当前在 spreadsheet、VisionQA、math reasoning 上测试,更复杂的多步骤任务(如软件开发)待验证
- 轨迹生成成本:200 条轨迹 × 50 轮交互 × 122B 模型,虽然"仅需 < 2 GPU-hours",但仍是不可忽视的前期投入
- 与在线学习的结合:目前是先批量生成轨迹再蒸馏,在线持续学习场景待探索
- Skill 冲突的自动解决:论文中冲突检测是程序化的,更复杂的语义冲突仍需人工介入
核心结论
- 归纳 > 检索:把经验蒸馏成文本 skill,比存储为检索记忆更高效
- 并行 > 顺序:同时分析所有轨迹,能识别跨轨迹的普遍模式,速度还更快
- 小模型能写大模型用的技能:因为归纳推理和任务执行是不同能力,35B 的"错题本"对 122B 更有价值
- 无参数更新、无外部检索、35B 参数即可:门槛低到令人惊讶
参考来源
- 论文:J. Ni et al., "Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills", arXiv:2603.25158, 2026
- GitHub: https://github.com/Qwen-Application/Trace2Skill
#论文解读 #Agent #Qwen #Skill设计 #阿里 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。