SkillOpt:给Agent技能装上"深度学习优化器",52个评估单元全满贯
论文:SkillOpt: Executive Strategy for Self-Evolving Agent Skills
arXiv: 2605.23904 | 项目:https://github.com/microsoft/SkillOpt
团队:Microsoft Research
日期:2026-05
核心问题:为什么Agent技能进化不了?
现有AI Agent的技能获取方法,本质上停留在石器时代:
- 手工编写:人类专家写自然语言指令,脆弱(brittle),场景一变就崩溃
- 单轮生成:LLM一次性产出技能,没有反馈回路,质量天花板被初始提示锁死
- 松散自修订:自我反思循环,听起来很高级,但行为根本不像深度学习优化器——无法稳定、可靠、可复现地超越起点
论文一针见血:
"技能应该被训练成参数冻结Agent的外部状态,用同样的纪律性让文本空间的优化可复现。"
这不是比喻,是严格的工程类比。SkillOpt 把"技能文档"当成神经网络的权重来训练,给文本空间装上了优化器。
核心洞察:文本空间需要"学习率"和"梯度门控"
传统深度学习优化的四大要素:
| 深度学习(权重空间) | SkillOpt(文本空间) |
|---|---|
| 参数梯度方向 | 轨迹反思 → 编辑方向 |
| 学习率 | 文本编辑预算(edit budget) |
| 验证检查(validation) | 留出验证门控(held-out selection gate) |
| 批量/调度 | 批次/调度(mini-batch / scheduler) |
这个类比不是修辞,而是完整实现了的工程系统。SkillOpt 证明了:文本技能可以像权重一样被系统优化,且部署时零额外成本。
技术架构:五阶段闭环
阶段一:冻结Agent + 当前技能 → 执行批次
- 目标模型(学生)完全冻结,不更新任何参数
- 当前技能文档注入 prompt,指导Agent行为
- 执行一批任务,收集轨迹和评分
- 结果:成功/失败模式、哪些规则生效、哪些失效
阶段二:优化器模型 → 结构化编辑
核心设计:优化器与目标模型解耦
- 优化器模型(默认 GPT-5.5)作为"教师",独立运行
- 仅离线训练时调用,部署推理零额外成本
- 将评分轨迹转化为有界的编辑操作:ADD / DEL / REP
编辑模式:
- Patch模式(默认):局部追加、插入、替换、删除——精细控制,保持连续性
- Rewrite模式:基于反思建议完全重写技能——大幅重构时启用
受保护字段(Slow-update Field):
- 每个epoch的元更新写入此区域
- 步骤级编辑无法覆盖,实现"快变"与"慢变"分离
阶段三:编辑合并、排序、裁剪 → 候选技能
- 文本学习率预算 \(L_t\) 控制每步允许的最大编辑数
- 默认 \(L_t = 4\),余弦衰减至下限 \(L_t = 2\)
- 调度策略:常数、线性衰减、余弦衰减(默认)、自适应
关键发现:编辑预算必须存在。"无学习率"(无界重写)显著更差:
- SearchQA:84.6 vs 86.5-87.0(-1.9至-2.4)
- SpreadsheetBench:75.7 vs 77.5-78.2(-1.8至-2.5)
阶段四:留出验证门控 → 接受/拒绝
严格接受标准:
候选被接受当且仅当:
SelectionScore(candidate) > CurrentSelectionScore(严格大于,平局拒绝)
- 数据分割:train : selection : test = 2 : 1 : 7
- selection 仅用于门控,报告分数在完全不相交的 test 上
- 每个步骤记录
edit_apply_report.json,追踪每个编辑的接受/跳过状态
双重作用:
- 防止有害提案累积(过拟合局部失败)
- 被拒绝的编辑成为有意义的负反馈
阶段五:慢更新与元整合
双层更新架构:
| 层级 | 频率 | 内容 | 存储位置 |
|---|---|---|---|
| 快速更新 | 每步 | 当前批次经验 | 技能文档主体 |
| 慢速更新 | 每epoch | 跨epoch长期规律 | 受保护的slow-update字段 |
| 元技能 | 每epoch | 编辑模式总结(哪些帮助、哪些失败) | 优化器端,不部署 |
慢更新采样(epoch结束):
- 用前epoch技能和当前技能分别执行相同训练项
- 分组:改进、退化、持续失败、稳定成功
- 优化器撰写纵向指导块,写入 slow-update 字段
关键消融:移除慢更新导致 SpreadsheetBench 暴跌 -22.5 分(77.5 → 55.0),说明局部编辑会覆盖持久的过程性课程。
被拒编辑缓冲区(Rejected-Edit Buffer)
- 每个epoch维护本地缓冲区
- 记录:失败模式、尝试过的编辑、导致的分数下降
- 后续反思调用接收此缓冲区作为上下文
效果:
| 配置 | SearchQA | SpreadsheetBench | LiveMath |
|---|---|---|---|
| 有拒绝缓冲区 | 87.1 | 77.5 | 61.3 |
| 无拒绝缓冲区 | 85.5(-1.6) | 72.9(-4.6) | 58.9(-2.4) |
作用:避免重复失败编辑,聚焦未解决失败,提供训练期间的负反馈而不增加推理成本。
实验结果:52个单元格全满贯
实验规模
| 维度 | 规模 |
|---|---|
| 基准 | 6个:SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMath、ALFWorld |
| 目标模型 | 7个:GPT-5.5、GPT-5.4、GPT-5.4-mini、GPT-5.4-nano、GPT-5.2、Qwen3.5-4B、Qwen3.6-35B-A3B |
| 执行环境 | 3种:Direct Chat、Codex harness、Claude Code harness |
| 评估单元 | 52个(model × benchmark × harness) |
| 基线 | 5组:无技能、人类专家、LLM单轮生成、Trace2Skill、TextGrad、GEPA、EvoSkill |
核心结果:52/52 全胜
在全部52个评估单元中,SkillOpt 取得最佳或并列最佳。没有一个单元输给任何基线。
标杆性数据(GPT-5.5,Direct Chat)
| 基准 | 无技能 | 人类专家 | LLM Skill | Trace2Skill | TextGrad | GEPA | SkillOpt | 提升 |
|---|---|---|---|---|---|---|---|---|
| SearchQA | 77.7 | 81.8 | 80.9 | 82.4 | 81.4 | 84.8 | 87.3 | +9.6 |
| SpreadsheetBench | 41.8 | 72.9 | 43.2 | 49.6 | 41.1 | 73.6 | 80.7 | +38.9 |
| OfficeQA | 33.1 | 66.9 | 51.7 | 65.7 | 42.0 | 63.9 | 72.1 | +39.0 |
| DocVQA | 78.8 | 90.1 | 89.6 | 90.6 | 87.2 | 89.1 | 91.2 | +12.4 |
| LiveMath | 37.6 | 38.4 | 40.0 | 52.0 | 49.2 | 43.2 | 66.9 | +29.3 |
| ALFWorld | 83.6 | 91.8 | 93.3 | 87.3 | 82.8 | 85.8 | 95.5 | +11.9 |
跨模型一致性(Direct Chat)
| 模型 | 无技能 | SkillOpt | 平均提升 |
|---|---|---|---|
| GPT-5.5 | 58.8 | 82.3 | +23.5 |
| GPT-5.4 | 55.5 | 72.8 | +17.3 |
| GPT-5.4-mini | 48.4 | 64.4 | +16.0 |
| GPT-5.4-nano | 31.6 | 49.0 | +17.4 |
| GPT-5.2 | 47.9 | 68.2 | +20.3 |
| Qwen3.5-4B | 34.1 | 52.8 | +18.7 |
| Qwen3.6-35B-A3B | 49.8 | 72.1 | +22.3 |
关键发现:
- SkillOpt 在所有7个模型上均超越人类专家(除个别模型在个别基准外,但平均看全面超越)
- 模型越弱,相对提升越大:GPT-5.4-nano 无技能31.6→49.0(+55%),GPT-5.5 58.8→82.3(+40%)
- 这表明 SkillOpt 的技能具有知识蒸馏特性:强优化器训练弱模型
跨环境(Agent harness)提升
| 环境 | 模型 | 无技能 | SkillOpt | 提升 |
|---|---|---|---|---|
| Direct Chat | GPT-5.5 | 58.8 | 82.3 | +23.5 |
| Codex harness | GPT-5.5 | 54.8 | 79.6 | +24.8 |
| Claude Code | GPT-5.5 | 62.5 | 81.6 | +19.1 |
基线对比的关键发现
1. 人类专家(Human)不总是最优
- SpreadsheetBench:人类72.9 vs SkillOpt 80.7(SkillOpt +7.8)
- OfficeQA:人类66.9 vs SkillOpt 72.1(SkillOpt +5.2)
- 但 DocVQA:人类90.1 vs SkillOpt 91.2(接近)
- 结论:人类专家在结构化任务(表格、办公)上远低于SkillOpt,在视觉理解(DocVQA)上接近
2. LLM单轮生成(LLM Skill)质量极不稳定
- SearchQA:80.9(接近人类)
- OfficeQA:51.7(远低于人类66.9)
- SpreadsheetBench:43.2(远低于人类72.9)
- 结论:单轮生成不可控,质量方差极大
3. TextGrad 经常拖后腿
- SpreadsheetBench:41.1(比无技能还低 -0.7)
- ALFWorld:82.8(比无技能还低 -0.8)
- OfficeQA(GPT-5.4-mini):30.0(远低于无技能22.1)
- 结论:TextGrad 的无界重写策略在复杂任务上可能破坏原有能力
4. GEPA 强但不够
- GEPA 在多数基准上表现良好,但仅在52个单元中的2个与SkillOpt并列,其余50个均落败
- 平均差距:+2.5至+5.8分
5. Trace2Skill 中等偏上,但天花板明显
- 相比无技能有明显提升,但几乎在所有单元上都低于SkillOpt
- 尤其 LiveMath:52.0 vs 66.9(-14.9)
消融实验:每个组件值多少分?
| 消融配置 | SearchQA | SpreadsheetBench | LiveMath |
|---|---|---|---|
| 完整 SkillOpt | 87.1 | 77.5 | 61.3 |
| 无编辑预算(无学习率) | 84.6 | 75.7 | - |
| 无拒绝缓冲区 | 85.5(-1.6) | 72.9(-4.6) | 58.9(-2.4) |
| 无元技能(meta skill) | 85.1(-2.0) | 75.7(-1.8) | 58.1(-3.2) |
| 无慢更新(slow update) | - | 55.0(-22.5) | - |
| 无元且无慢 | 86.3(-0.8) | - | 59.7(-1.6) |
关键洞察:
- 慢更新最关键:移除后 SpreadsheetBench 暴跌 -22.5,说明过程性课程需要跨epoch整合
- 拒绝缓冲区其次:-4.6分,避免重复失败
- 元技能第三:跨epoch模式总结
- 编辑预算基础:无界重写显著更差
迁移性:优化产物通用到什么程度?
论文测试了三种迁移:
-
跨模型迁移:同一技能应用到不同模型
- GPT-5.5优化的技能 → GPT-5.4:仍有效,但分数略降(需重优化)
- 小模型优化技能 → 大模型:通常有效,但非最优
-
跨环境迁移:Direct Chat优化的技能 → Codex/Claude Code
- 基础技能有效,但 harness 特定细节需调整
- 整体仍优于基线
-
跨任务迁移:数学优化技能 → 相近数学任务
- 无需继续优化即可直接应用
- 比从零训练快且稳定
与现有方法的对比
| 维度 | 手工编写 | 单轮生成 | Trace2Skill | TextGrad | GEPA | EvoSkill | SkillOpt |
|---|---|---|---|---|---|---|---|
| 优化深度 | 无 | 无 | 浅层 | 浅层 | 中等 | 中等 | 深层 |
| 迭代性 | 无 | 无 | 有 | 有 | 有 | 有 | 有 |
| 编辑边界 | 人工 | 无 | 无 | 无 | 无 | 无 | 有(ADD/DEL/REP) |
| 验证门控 | 无 | 无 | 无 | 无 | 有 | 无 | 严格(严格>) |
| 负反馈利用 | 无 | 无 | 无 | 无 | 无 | 无 | 拒绝缓冲区 |
| 跨epoch整合 | 无 | 无 | 无 | 无 | 无 | 无 | 慢更新+元技能 |
| 部署成本 | 零 | 零 | 零 | 零 | 零 | 零 | 零 |
| 训练成本 | 人工 | 低 | 中 | 中 | 中 | 中 | 中(离线优化器) |
| 可复现性 | 低 | 低 | 中 | 低 | 中 | 中 | 高 |
局限性与开放问题
- 优化器模型依赖:默认用 GPT-5.5 作为优化器,虽然与目标解耦,但强优化器本身获取不易
- 训练时间:SFT ~3小时,RL ~28小时(参考Skill-3D),SkillOpt 文本优化可能类似或更长
- 超参数敏感:编辑预算、衰减策略、缓冲区大小需调参,"最佳因基准而异"
- 文本空间约束:编辑操作(ADD/DEL/REP)限制了表达能力,某些复杂修改可能需要Rewrite模式
- 领域泛化:当前6个基准都是Agent/工具任务,创意写作、开放对话等软性任务未验证
影响与展望
对Prompt Engineering的终结
SkillOpt 意味着:
- 人工写技能 = 手写权重:可以,但不如自动优化
- 单轮生成技能 = 随机初始化:可用,但天花板低
- SkillOpt = 训练优化器:可复现、可迭代、可超越起点
如果SkillOpt被集成到 Claude Code、Cursor、GitHub Copilot 等开发工具中,开发者可能不再需要手动调整系统提示——技能会自动从执行反馈中进化。
对Agent架构的启示
- 技能 = 外部状态:Agent的参数冻结,技能是可训练的外部模块
- 优化器 ≠ 执行器:教师-学生解耦,强优化器训练弱模型
- 文本空间需要深度学习纪律:学习率、梯度门控、批量调度、早停——这些都不是权重空间专利
一个更深层的意义
SkillOpt 证明了:
文本不是非结构化的混沌——它可以被系统优化,只要给它装上正确的工程纪律。
ADD/DEL/REP 是文本的"梯度方向",编辑预算是"学习率",验证门控是"val check",慢更新是"momentum"。这些概念从权重空间迁移到文本空间,不是类比,而是等价的工程实现。
这意味着:未来Agent的核心能力可能不是"更大的模型",而是"更好的技能优化器"。模型是冻结的硬件,技能是进化的软件。
结论
SkillOpt是Agent技能领域的里程碑工作。它首次将深度学习优化的纪律性完整迁移到文本空间:
- 52/52全胜:6基准×7模型×3环境,全面超越所有基线
- 部署零成本:优化器仅离线训练,推理不增加任何调用
- 可复现性:严格验证门控 + 编辑预算 + 负反馈缓冲区 = 稳定的优化过程
- 超越人类:在结构化任务上远超人类专家编写技能
- 知识蒸馏:强优化器(GPT-5.5)训练的产物可提升弱模型(GPT-5.4-nano提升55%)
如果 Vision Banana 是视觉领域的"GPT时刻",那么 SkillOpt 可能是 Agent 领域的"优化器时刻"——它证明了文本技能可以被系统优化,且这种优化不需要改变模型权重,不需要增加推理成本,只需要工程纪律。
参考信息
- 论文:https://arxiv.org/abs/2605.23904
- 项目:https://github.com/microsoft/SkillOpt
- 团队:Microsoft Research
- 发表时间:2026-05
#论文 #Agent #技能优化 #文本优化器 #Microsoft #深度学习 #提示工程 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。