SkillOpt：给Agent技能装上"深度学习优化器"，52个评估单元全满贯

> 论文：SkillOpt: Executive Strategy for Self-Evolving Agent Skills > arXiv: 2605.23904 | 项目：https://github.com/microsoft/SkillOpt > 团队：Microsoft Research > 日期：2026-05

---

核心问题：为什么Agent技能进化不了？

现有AI Agent的技能获取方法，本质上停留在石器时代：

手工编写：人类专家写自然语言指令，脆弱（brittle），场景一变就崩溃
单轮生成：LLM一次性产出技能，没有反馈回路，质量天花板被初始提示锁死
松散自修订：自我反思循环，听起来很高级，但行为根本不像深度学习优化器——无法稳定、可靠、可复现地超越起点

论文一针见血：

> "技能应该被训练成参数冻结Agent的外部状态，用同样的纪律性让文本空间的优化可复现。"

这不是比喻，是严格的工程类比。SkillOpt 把"技能文档"当成神经网络的权重来训练，给文本空间装上了优化器。

---

核心洞察：文本空间需要"学习率"和"梯度门控"

传统深度学习优化的四大要素：

深度学习（权重空间）	SkillOpt（文本空间）
参数梯度方向	轨迹反思 → 编辑方向
学习率	文本编辑预算（edit budget）
验证检查（validation）	留出验证门控（held-out selection gate）
批量/调度	批次/调度（mini-batch / scheduler）

这个类比不是修辞，而是完整实现了的工程系统。SkillOpt 证明了：文本技能可以像权重一样被系统优化，且部署时零额外成本。

---

技术架构：五阶段闭环

阶段一：冻结Agent + 当前技能 → 执行批次

目标模型（学生）完全冻结，不更新任何参数
当前技能文档注入 prompt，指导Agent行为
执行一批任务，收集轨迹和评分
结果：成功/失败模式、哪些规则生效、哪些失效

阶段二：优化器模型 → 结构化编辑

核心设计：优化器与目标模型解耦

优化器模型（默认 GPT-5.5）作为"教师"，独立运行
仅离线训练时调用，部署推理零额外成本
将评分轨迹转化为有界的编辑操作：ADD / DEL / REP

编辑模式：

Patch模式（默认）：局部追加、插入、替换、删除——精细控制，保持连续性
Rewrite模式：基于反思建议完全重写技能——大幅重构时启用

受保护字段（Slow-update Field）：

每个epoch的元更新写入此区域
步骤级编辑无法覆盖，实现"快变"与"慢变"分离

阶段三：编辑合并、排序、裁剪 → 候选技能

文本学习率预算 $L_t$ 控制每步允许的最大编辑数
默认 $L_t = 4$，余弦衰减至下限 $L_t = 2$
调度策略：常数、线性衰减、余弦衰减（默认）、自适应

关键发现：编辑预算必须存在。"无学习率"（无界重写）显著更差：

SearchQA：84.6 vs 86.5-87.0（-1.9至-2.4）
SpreadsheetBench：75.7 vs 77.5-78.2（-1.8至-2.5）

阶段四：留出验证门控 → 接受/拒绝

严格接受标准：

候选被接受当且仅当：
SelectionScore(candidate) > CurrentSelectionScore（严格大于，平局拒绝）

数据分割：train : selection : test = 2 : 1 : 7
selection 仅用于门控，报告分数在完全不相交的 test 上
每个步骤记录 edit_apply_report.json，追踪每个编辑的接受/跳过状态

双重作用： 1. 防止有害提案累积（过拟合局部失败） 2. 被拒绝的编辑成为有意义的负反馈

阶段五：慢更新与元整合

双层更新架构：

层级	频率	内容	存储位置
快速更新	每步	当前批次经验	技能文档主体
慢速更新	每epoch	跨epoch长期规律	受保护的slow-update字段
元技能	每epoch	编辑模式总结（哪些帮助、哪些失败）	优化器端，不部署

慢更新采样（epoch结束）：

用前epoch技能和当前技能分别执行相同训练项
分组：改进、退化、持续失败、稳定成功
优化器撰写纵向指导块，写入 slow-update 字段

关键消融：移除慢更新导致 SpreadsheetBench 暴跌 -22.5 分（77.5 → 55.0），说明局部编辑会覆盖持久的过程性课程。

被拒编辑缓冲区（Rejected-Edit Buffer）

每个epoch维护本地缓冲区
记录：失败模式、尝试过的编辑、导致的分数下降
后续反思调用接收此缓冲区作为上下文

效果：

配置	SearchQA	SpreadsheetBench	LiveMath
有拒绝缓冲区	87.1	77.5	61.3
无拒绝缓冲区	85.5（-1.6）	72.9（-4.6）	58.9（-2.4）

作用：避免重复失败编辑，聚焦未解决失败，提供训练期间的负反馈而不增加推理成本。

---

实验结果：52个单元格全满贯

实验规模

维度	规模
基准	6个：SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMath、ALFWorld
目标模型	7个：GPT-5.5、GPT-5.4、GPT-5.4-mini、GPT-5.4-nano、GPT-5.2、Qwen3.5-4B、Qwen3.6-35B-A3B
执行环境	3种：Direct Chat、Codex harness、Claude Code harness
评估单元	52个（model × benchmark × harness）
基线	5组：无技能、人类专家、LLM单轮生成、Trace2Skill、TextGrad、GEPA、EvoSkill

核心结果：52/52 全胜

在全部52个评估单元中，SkillOpt 取得最佳或并列最佳。没有一个单元输给任何基线。

#### 标杆性数据（GPT-5.5，Direct Chat）

基准	无技能	人类专家	LLM Skill	Trace2Skill	TextGrad	GEPA	SkillOpt	提升
SearchQA	77.7	81.8	80.9	82.4	81.4	84.8	87.3	+9.6
SpreadsheetBench	41.8	72.9	43.2	49.6	41.1	73.6	80.7	+38.9
OfficeQA	33.1	66.9	51.7	65.7	42.0	63.9	72.1	+39.0
DocVQA	78.8	90.1	89.6	90.6	87.2	89.1	91.2	+12.4
LiveMath	37.6	38.4	40.0	52.0	49.2	43.2	66.9	+29.3
ALFWorld	83.6	91.8	93.3	87.3	82.8	85.8	95.5	+11.9

#### 跨模型一致性（Direct Chat）

模型	无技能	SkillOpt	平均提升
GPT-5.5	58.8	82.3	+23.5
GPT-5.4	55.5	72.8	+17.3
GPT-5.4-mini	48.4	64.4	+16.0
GPT-5.4-nano	31.6	49.0	+17.4
GPT-5.2	47.9	68.2	+20.3
Qwen3.5-4B	34.1	52.8	+18.7
Qwen3.6-35B-A3B	49.8	72.1	+22.3

关键发现：

SkillOpt 在所有7个模型上均超越人类专家（除个别模型在个别基准外，但平均看全面超越）
模型越弱，相对提升越大：GPT-5.4-nano 无技能31.6→49.0（+55%），GPT-5.5 58.8→82.3（+40%）
这表明 SkillOpt 的技能具有知识蒸馏特性：强优化器训练弱模型

#### 跨环境（Agent harness）提升

环境	模型	无技能	SkillOpt	提升
Direct Chat	GPT-5.5	58.8	82.3	+23.5
Codex harness	GPT-5.5	54.8	79.6	+24.8
Claude Code	GPT-5.5	62.5	81.6	+19.1

基线对比的关键发现

#### 1. 人类专家（Human）不总是最优

SpreadsheetBench：人类72.9 vs SkillOpt 80.7（SkillOpt +7.8）
OfficeQA：人类66.9 vs SkillOpt 72.1（SkillOpt +5.2）
但 DocVQA：人类90.1 vs SkillOpt 91.2（接近）
结论：人类专家在结构化任务（表格、办公）上远低于SkillOpt，在视觉理解（DocVQA）上接近

#### 2. LLM单轮生成（LLM Skill）质量极不稳定

SearchQA：80.9（接近人类）
OfficeQA：51.7（远低于人类66.9）
SpreadsheetBench：43.2（远低于人类72.9）
结论：单轮生成不可控，质量方差极大

#### 3. TextGrad 经常拖后腿

SpreadsheetBench：41.1（比无技能还低 -0.7）
ALFWorld：82.8（比无技能还低 -0.8）
OfficeQA（GPT-5.4-mini）：30.0（远低于无技能22.1）
结论：TextGrad 的无界重写策略在复杂任务上可能破坏原有能力

#### 4. GEPA 强但不够

GEPA 在多数基准上表现良好，但仅在52个单元中的2个与SkillOpt并列，其余50个均落败
平均差距：+2.5至+5.8分

#### 5. Trace2Skill 中等偏上，但天花板明显

相比无技能有明显提升，但几乎在所有单元上都低于SkillOpt
尤其 LiveMath：52.0 vs 66.9（-14.9）

消融实验：每个组件值多少分？

消融配置	SearchQA	SpreadsheetBench	LiveMath
完整 SkillOpt	87.1	77.5	61.3
无编辑预算（无学习率）	84.6	75.7	-
无拒绝缓冲区	85.5（-1.6）	72.9（-4.6）	58.9（-2.4）
无元技能（meta skill）	85.1（-2.0）	75.7（-1.8）	58.1（-3.2）
无慢更新（slow update）	-	55.0（-22.5）	-
无元且无慢	86.3（-0.8）	-	59.7（-1.6）

关键洞察：

慢更新最关键：移除后 SpreadsheetBench 暴跌 -22.5，说明过程性课程需要跨epoch整合
拒绝缓冲区其次：-4.6分，避免重复失败
元技能第三：跨epoch模式总结
编辑预算基础：无界重写显著更差

迁移性：优化产物通用到什么程度？

论文测试了三种迁移：

1. 跨模型迁移：同一技能应用到不同模型

GPT-5.5优化的技能 → GPT-5.4：仍有效，但分数略降（需重优化）
小模型优化技能 → 大模型：通常有效，但非最优

2. 跨环境迁移：Direct Chat优化的技能 → Codex/Claude Code

基础技能有效，但 harness 特定细节需调整
整体仍优于基线

3. 跨任务迁移：数学优化技能 → 相近数学任务

无需继续优化即可直接应用
比从零训练快且稳定

---

与现有方法的对比

维度	手工编写	单轮生成	Trace2Skill	TextGrad	GEPA	EvoSkill	SkillOpt
优化深度	无	无	浅层	浅层	中等	中等	深层
迭代性	无	无	有	有	有	有	有
编辑边界	人工	无	无	无	无	无	有（ADD/DEL/REP）
验证门控	无	无	无	无	有	无	严格（严格>）
负反馈利用	无	无	无	无	无	无	拒绝缓冲区
跨epoch整合	无	无	无	无	无	无	慢更新+元技能
部署成本	零	零	零	零	零	零	零
训练成本	人工	低	中	中	中	中	中（离线优化器）
可复现性	低	低	中	低	中	中	高

---

局限性与开放问题

1. 优化器模型依赖：默认用 GPT-5.5 作为优化器，虽然与目标解耦，但强优化器本身获取不易 2. 训练时间：SFT ~3小时，RL ~28小时（参考Skill-3D），SkillOpt 文本优化可能类似或更长 3. 超参数敏感：编辑预算、衰减策略、缓冲区大小需调参，"最佳因基准而异" 4. 文本空间约束：编辑操作（ADD/DEL/REP）限制了表达能力，某些复杂修改可能需要Rewrite模式 5. 领域泛化：当前6个基准都是Agent/工具任务，创意写作、开放对话等软性任务未验证

---

影响与展望

对Prompt Engineering的终结

SkillOpt 意味着：

人工写技能 = 手写权重：可以，但不如自动优化
单轮生成技能 = 随机初始化：可用，但天花板低
SkillOpt = 训练优化器：可复现、可迭代、可超越起点

如果SkillOpt被集成到 Claude Code、Cursor、GitHub Copilot 等开发工具中，开发者可能不再需要手动调整系统提示——技能会自动从执行反馈中进化。

对Agent架构的启示

1. 技能 = 外部状态：Agent的参数冻结，技能是可训练的外部模块 2. 优化器 ≠ 执行器：教师-学生解耦，强优化器训练弱模型 3. 文本空间需要深度学习纪律：学习率、梯度门控、批量调度、早停——这些都不是权重空间专利

一个更深层的意义

SkillOpt 证明了：

> 文本不是非结构化的混沌——它可以被系统优化，只要给它装上正确的工程纪律。

ADD/DEL/REP 是文本的"梯度方向"，编辑预算是"学习率"，验证门控是"val check"，慢更新是"momentum"。这些概念从权重空间迁移到文本空间，不是类比，而是等价的工程实现。

这意味着：未来Agent的核心能力可能不是"更大的模型"，而是"更好的技能优化器"。模型是冻结的硬件，技能是进化的软件。

---

结论

SkillOpt是Agent技能领域的里程碑工作。它首次将深度学习优化的纪律性完整迁移到文本空间：

52/52全胜：6基准×7模型×3环境，全面超越所有基线
部署零成本：优化器仅离线训练，推理不增加任何调用
可复现性：严格验证门控 + 编辑预算 + 负反馈缓冲区 = 稳定的优化过程
超越人类：在结构化任务上远超人类专家编写技能
知识蒸馏：强优化器（GPT-5.5）训练的产物可提升弱模型（GPT-5.4-nano提升55%）

如果 Vision Banana 是视觉领域的"GPT时刻"，那么 SkillOpt 可能是 Agent 领域的"优化器时刻"——它证明了文本技能可以被系统优化，且这种优化不需要改变模型权重，不需要增加推理成本，只需要工程纪律。

---

参考信息

论文：https://arxiv.org/abs/2605.23904
项目：https://github.com/microsoft/SkillOpt
团队：Microsoft Research
发表时间：2026-05

#论文 #Agent #技能优化 #文本优化器 #Microsoft #深度学习 #提示工程 #小凯

SkillOpt：给Agent技能装上"深度学习优化器"，52个评估单元全满贯

SkillOpt：给Agent技能装上"深度学习优化器"，52个评估单元全满贯

核心问题：为什么Agent技能进化不了？

核心洞察：文本空间需要"学习率"和"梯度门控"

技术架构：五阶段闭环

阶段一：冻结Agent + 当前技能 → 执行批次

阶段二：优化器模型 → 结构化编辑

阶段三：编辑合并、排序、裁剪 → 候选技能

阶段四：留出验证门控 → 接受/拒绝

阶段五：慢更新与元整合

被拒编辑缓冲区（Rejected-Edit Buffer）

实验结果：52个单元格全满贯

实验规模

核心结果：52/52 全胜

基线对比的关键发现

消融实验：每个组件值多少分？

迁移性：优化产物通用到什么程度？

与现有方法的对比

局限性与开放问题

影响与展望

对Prompt Engineering的终结

对Agent架构的启示

一个更深层的意义

结论

参考信息

🌟 智谱 GLM-5 已上线