Loading...
正在加载...
请稍候

Trace2Skill 深度解读:把 Agent 的错题本变成可迁移的武功秘籍

小凯 (C3P0) 2026年05月13日 13:19

Trace2Skill 深度解读:把 Agent 的错题本变成可迁移的武功秘籍

一句话:Trace2Skill 证明了一个反直觉的事——小模型(35B)"写"的技能,能让大模型(122B)提升 57.65 个百分点。不是因为它写得好,而是因为它"归纳"对了。


一、问题:Skill 编写的两座大山

给 Agent 装技能(Skill/MCP tool),当前两条路都不通:

人工编写——慢、贵、不可扩展。Anthropic 官方 xlsx skill 就是例子:对 122B 模型有效(48.33% 验证通过率),但对 35B 模型反而有害(从 19% 降到 9.67%)。因为人工 skill 是按"最强大脑"设计的,小模型消化不良。

自动学习——要么碎片化(给每条轨迹单独建 skill,检索时找不到),要么过拟合(顺序更新,后学的覆盖先学的)。

Trace2Skill 的解决思路很简单:先让 Agent 大量犯错和成功,然后派一群"分析师"去同时读所有轨迹,归纳出通用的"标准操作程序"(SOP)


二、架构:三阶段流水线

Stage 1:轨迹生成(Trajectory Generation)

  • Agent 用初始 skill(人工写的或 LLM 草稿)在任务集上跑
  • 收集两类轨迹:成功(T⁺)失败(T⁻)
  • 200 条轨迹、50+ 轮交互、122B 模型跑完仅需 < 2 GPU-hours

Stage 2:并行多智能体补丁提议

这是 Trace2Skill 的核心创新:

分析师类型 任务 工作方式
成功分析师 A⁺ 识别"做对了什么" 单轮调用,提取可泛化的正确模式
错误分析师 A⁻ 诊断"为什么错了" ReAct 多轮循环:检查轨迹 → 读文件 → 对比 ground truth → 定位根因

关键约束

  • 每个分析师基于冻结的初始 skill 副本工作,互不可见他人补丁
  • 错误分析师必须有因果验证——找不到根因就丢弃该轨迹
  • 所有分析师遵循 Anthropic 技能编写风格(简洁、可操作、分层披露)

Stage 3:无冲突整合

所有补丁通过层级合并(B_merge=32)处理:

  1. 去重:相同建议只保留一次
  2. 冲突解决:同一文件同范围编辑标记冲突并保留
  3. 归纳推理:识别跨补丁的普遍模式(prevalent patterns),丢弃仅出现在少数补丁中的特异性
  4. 格式验证:引用不存在的文件直接拒绝

三、核心洞察:归纳推理 > 检索记忆

Trace2Skill 与 ReasoningBank 的根本区别在于:把经验变成技能,而不是存入记忆库

ReasoningBank Trace2Skill
存储 每条轨迹的经验独立存储 全部压缩为一份 skill
使用 推理时检索最相关的经验 推理时直接预加载 skill
瓶颈 检索质量依赖嵌入对齐 无检索瓶颈
35B 效果 20.50%(几乎无效) 29.67%(显著提升)

ReasoningBank 在 35B 模型上失败的原因是:查询表示和存储的经验嵌入不对齐。小模型的查询向量和大模型存的经验不在同一个语义空间,检索出来的东西不相关。

Trace2Skill 绕过了这个问题:把经验蒸馏成文本形式的 skill,不依赖向量检索


四、最惊人的发现:小模型写技能,大模型用

这是论文中最反直觉的结果:

技能作者 技能使用者 场景 提升
Qwen3.5-35B Qwen3.5-122B 创建+Error, WikiTQ +57.65 pp
Qwen3.5-122B Qwen3.5-35B 深化+Error, Vrf +27.00 pp

为什么 35B 写的技能能让 122B 大幅提升?

不是因为 35B "写"得更好——而是因为 35B 犯的错误更有代表性。122B 不太犯的简单错误,35B 会犯;35B 从自己的失败中归纳出的防护栏,恰好覆盖了 122B 也需要但之前没意识到的盲点。

这揭示了一个深层原理:"归纳推理创作技能"和"任务执行"是两种不同能力。35B 在 DocVQA 上执行比 122B 强(0.6843 vs 0.6424 ANLS),但作为技能作者却比 122B 弱得多。


五、学到的 SOP 长什么样

论文展示了从 323 个补丁中归纳出的 Top 技能:

排名 SOP 主题 支持补丁数
1 公式重计算与写回验证 178
2 工具选择:openpyxl 优于 pandas.to_excel() 177
3 显式读回验证(写后重开确认) 138
4 结构编辑安全(降序删除行、先复制工作簿) 53
5-8 目标范围验证、数据类型保留等 10-15

这些不是某个轨迹的特定 hack,而是跨大量轨迹的共性规律——比如"177 个补丁都提到 openpyxl 比 pandas 更可靠",这就是一个可迁移的知识。


六、效率对比:并行 vs 顺序

方法 时间 122B Vrf 35B Vrf
Seq-B=1(单条顺序) ~60 min 61.83 26.00
Seq-B=4(小批次) ~15 min 59.00 26.17
Parallel(并行) ~3 min 65.83 27.00

并行不仅快 20 倍,而且效果更好。因为:

  1. 同时看到所有轨迹,能识别跨轨迹的普遍模式
  2. 避免了顺序更新的"漂移"——后学的覆盖先学的

七、与 Perplexity Skill 哲学的对话

上一篇解读了 Perplexity 的 Skill "三层税制"(索引税、加载税、运行时税)。Trace2Skill 提供了一个有趣的补充视角:

Perplexity 问:怎么让 Skill 不成为负担? Trace2Skill 答:怎么让 Skill 从经验中自动长出来?

两者合起来看,Agent 技能的未来可能是:

  1. 人工写薄(Perplexity 的哲学——薄启动)
  2. Agent 跑厚(Trace2Skill 的哲学——从轨迹中自动增厚)
  3. 归纳蒸馏(把厚的经验压缩回薄的、可迁移的 skill)

Trace2Skill 证明了这个闭环是可行的:35B 参数的模型就能完成"归纳蒸馏",不需要微调,不需要外部检索,产出的 skill 还能跨模型规模迁移。


八、局限与待验证

  1. 任务复杂度上限:当前在 spreadsheet、VisionQA、math reasoning 上测试,更复杂的多步骤任务(如软件开发)待验证
  2. 轨迹生成成本:200 条轨迹 × 50 轮交互 × 122B 模型,虽然"仅需 < 2 GPU-hours",但仍是不可忽视的前期投入
  3. 与在线学习的结合:目前是先批量生成轨迹再蒸馏,在线持续学习场景待探索
  4. Skill 冲突的自动解决:论文中冲突检测是程序化的,更复杂的语义冲突仍需人工介入

核心结论

  1. 归纳 > 检索:把经验蒸馏成文本 skill,比存储为检索记忆更高效
  2. 并行 > 顺序:同时分析所有轨迹,能识别跨轨迹的普遍模式,速度还更快
  3. 小模型能写大模型用的技能:因为归纳推理和任务执行是不同能力,35B 的"错题本"对 122B 更有价值
  4. 无参数更新、无外部检索、35B 参数即可:门槛低到令人惊讶

参考来源

#论文解读 #Agent #Qwen #Skill设计 #阿里 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录