> 一句话：Penn State 团队提出 SkillGrad，把 Agent 技能包（skill package）当成可优化的参数，像梯度下降那样迭代。失败轨迹提供"损失信号"，成功轨迹提供"保护信号"，文本动量累积跨迭代的重复诊断模式。GPT-5.4 在 SpreadsheetBench 上从 Base Skill 的 55.8% 拉到 71.1%，比最强训练基线 Trace2Skill 还高 3 pp；GPT-4.1 更夸张，从 36.7% 拉到 54.2%，领先 Trace2Skill 17 pp。10 次迭代成本约 6.4 美元，不需要微调模型，只改技能文件。

---

一、技能文件的困境：生成了，不好用

LLM Agent 的"技能"（skill）是轻量级的领域适配方式——把可复用的程序性知识存成结构化文件（SKILL.md），Agent 遇到对应任务时加载。不需要微调模型，换一套技能文件就能切换领域。

但问题很明显：

LLM 自动生成的技能，质量远低于专家手写
第三方下载的技能，可能过时、不完整、有漏洞
现有进化方法（EvoSkill、Trace2Skill）靠启发式反思，没有显式的优化框架

EvoSkill 的思路是"失败驱动"——看哪些任务失败了，针对性修复。Trace2Skill 的思路是"蒸馏"——从大量执行轨迹里提取局部教训，再层次化整合。两者都是经验主义，没有优化目标、没有收敛保证、没有防止过优化的机制。

SkillGrad 的切入角度：把技能包当成参数，把执行轨迹当成损失证据，把整个迭代过程当成梯度下降。

---

二、分层技能参数：L1/L2/L3 的架构设计

技能包不是平铺的 markdown，而是分层的结构化文件：

层级	内容	加载策略
L1 Metadata	YAML 描述（名称、描述、激活条件）	仅用于路由，决定何时激活
L2 SKILL.md	核心原则、工作流、操作模式、常见陷阱	始终加载，保持精简
L3 Resources	详细示例、边缘情况、条件触发过程	条件加载，按需读取

L2 必须紧凑——每行都消耗未来每次运行的上下文预算。L3 可扩展——不用的时候无负担。补丁器更新时必须判断：新知识放 L2（重要原则）还是 L3（边缘案例）。

迭代后的尺寸变化：

L2：从 40 行 → 迭代 1 约 120 行 → 最终稳定在 154 行（均值）
L3：从 0 → 单调增长至约 13,000 字符（迭代 10）

> 这意味着 L3 像雪球一样越滚越大，但 L2 收敛了——核心知识被压缩进始终加载的头部，边缘知识被沉淀到按需加载的尾部。

---

三、损失证据：不只是失败，还有"从失败到成功"的对比

3.1 二元损失太粗糙

传统方法只看"成功/失败"——成功了，没信号；失败了，修一下。这种二元信号太稀疏，且浪费了成功案例中的信息。

3.2 SkillGrad 的轨迹级损失

$$E_t(T) = \begin{cases} \{\tau_t^-, c_t\}, & r_t(T) = 0 \text{（当前失败）} \\ \{\tau_t^+, \tau_0^-, c_0\}, & r_t(T) = 1 \text{（当前成功，但初始失败）} \end{cases}$$

两种证据：

失败轨迹（当前失败）：提供纠正性诊断——"这里做错了，应该怎么改"
对比成功轨迹（初始失败→当前成功）：提供保护性诊断——"从失败到成功，变了什么？这个变化值得保留"

训练任务采样策略：从初始技能的 失败池 中采样，不是随机采样。这意味着迭代 1 时，大量任务初始失败但当前可能成功——对比成功轨迹天然丰富。

> 关键洞察：即使当前成功了，成功的轨迹和附近失败的对比，仍然能提供有用的改进信号。这解决了纯二元损失信号稀疏的问题。

---

四、文本动量：跨迭代累积重复出现的诊断模式

4.1 类比梯度下降的动量项

梯度下降	SkillGrad 文本动量
$v_t = \gamma v_{t-1} + g_t$	$(M_t, O_t) = \text{Momentum}(M_{t-1}, D_t, S_t)$

4.2 双状态结构

$M_t$ 持久模式记忆：记录跨迭代重复出现的机制。每个模式包含：锚点（anchor）、出现迭代、描述、当前最佳执行动作、修复历史。
$O_t$ 当前批次叠加：为每个批次任务生成紧凑的更新信号。

4.3 动态特征

指标	数值
累积模式数饱和点	迭代 7（约 10 个模式）
迭代 1 新模式率	~3 个/迭代
迭代 5-9 新模式率	0-1 个/迭代
活跃模式数（迭代 3+）	稳定于 4-5 个

迭代后期新模式几乎不再出现——说明技能已经收敛到一组稳定的知识模式。这正是"动量"的作用：稳定的经验被保留，不稳定的单次波动被过滤。

---

五、分层感知补丁：把诊断变成编辑

$$S_{t+1} = \text{Patch}(S_t, D_t, M_t, O_t)$$

补丁器不是简单地"把诊断内容 append 到技能文件"。它要做三件事： 1. 模式级泛化：多个诊断指向同一机制时，产生单一泛化编辑，而不是任务级修复列表 2. 层感知路由：判断内容放 L2（始终加载）还是 L3（条件触发） 3. 锚点系统：用 kebab-case slug（如 inspect-before-edit、mapping-shapes）稳定定位，避免重复添加

补丁幅度：

迭代 1（启动）：约1,170 词添加，约80 词移除
迭代 2-10（增量）：约330 词/迭代（240-410 带），移除持续低

消融对比：无动量时 L2 词数膨胀 29.7%（2,416 vs 1,863），L3 反而减少 32%——更多内容被迫进入 L2，削弱了条件加载的优势。

---

六、实验：数字说话

6.1 数据集

SpreadsheetBench Verified：域内任务（电子表格操作），训练集 40、验证集 20、测试集 120。硬准确率：所有输出单元格匹配。
WikiTableQuestions (WikiTQ)：域外任务（半结构化表 QA），固定采样 70 例。指称准确率：预测答案与 gold denotation 匹配。

6.2 基线

No Skill：直接使用 LLM，无技能文件
Base Skill：直接使用初始化技能（LLM 生成或第三方）
Trace2Skill (Ni et al., 2026)：轨迹→技能蒸馏
EvoSkill (Alzubi et al., 2026)：失败驱动进化

6.3 LLM 生成的技能初始化

方法	GPT-5.4 SpreadsheetBench	GPT-5.4 WikiTQ	GPT-4.1 SpreadsheetBench	GPT-4.1 WikiTQ
No Skill	62.50	78.57	44.17	52.86
Base Skill	55.83	77.14	36.67	48.58
Trace2Skill	65.28±2.93	79.05±1.35	37.22±3.54	60.00±5.83
EvoSkill	68.06±0.48	78.09±0.67	37.22±2.58	53.33±7.50
SkillGrad	71.11±1.73	82.38±1.78	54.17±3.54	73.65±2.50

几个值得细品的数字：

GPT-5.4：Base Skill 55.83% → SkillGrad 71.11%（+15.28 pp），比 Trace2Skill 高 3.05 pp，比 EvoSkill 高 3.05 pp
GPT-4.1：Base Skill 36.67% → SkillGrad 54.17%（+17.50 pp），比 Trace2Skill 高 16.95 pp，比 EvoSkill 高 16.95 pp
WikiTQ（域外）：GPT-5.4 82.38% vs Trace2Skill 79.05%（+3.33 pp）；GPT-4.1 73.65% vs Trace2Skill 60.00%（+13.65 pp）

GPT-4.1 的提升幅度比 GPT-5.4 更夸张——说明 SkillGrad 对弱模型帮助更大，因为弱模型更依赖技能文件的引导。

6.4 第三方技能初始化

方法	GPT-5.4 SpreadsheetBench	GPT-5.4 WikiTQ	GPT-4.1 SpreadsheetBench	GPT-4.1 WikiTQ
Base Skill	60.00	78.57	33.33	42.86
Trace2Skill	63.89±0.48	81.91±1.78	38.89±3.85	51.43±1.17
EvoSkill	63.61±1.92	80.95±3.56	36.94±1.92	43.33±4.86
SkillGrad	69.44±0.48	83.34±0.67	45.83±3.66	53.81±2.43

第三方初始技能质量通常比 LLM 生成的更好（Base Skill 60% vs 55.8%），但 SkillGrad 的提升仍然稳定——69.44% vs 63.89%（+5.55 pp）。

6.5 消融实验

变体	准确率	变化
完整 SkillGrad	72.50%	—
无动量	65.83%	-6.67 pp
仅失败诊断	68.33%	-4.17 pp

动量比对比成功诊断更重要——去掉动量掉 6.67 pp，去掉对比成功只掉 4.17 pp。说明跨迭代稳定性的价值超过单次迭代的信号丰富度。

6.6 超参数与成本

批次大小	训练轨迹数	准确率
2	20	70.0%
4（默认）	40	72.5%
6	60	70.8%

批次不是越大越好——4 是 sweet spot，6 反而下降（可能引入更多噪音）。

迭代	准确率
1	63.3%
4	65.8%
7	67.5%
10（默认）	72.5%
13	70.0%

迭代 10 是最佳检查点，13 开始下降——过拟合或更新非单调。文本更新不像数值梯度那样有收敛保证。

成本：10 次迭代运行约 6.4 USD ± 0.38。单次迭代从 ~0.35 USD（迭代 1）增长到 ~0.85 USD（迭代 10），因为动量和补丁阶段的提示包含累积的模式状态。

---

七、启发：把"调 prompt"变成"优化参数"

SkillGrad 的核心贡献不是某个具体技巧，而是 视角转换——把技能文件从"手写的文档"变成"可优化的参数"。

这和传统机器学习的演进很像：

早期：特征工程——人工设计特征
中期：梯度下降——自动优化参数
现在：prompt 工程——人工调 prompt
SkillGrad：prompt 优化——自动迭代技能文件

区别在于：

梯度下降优化的是数值参数（权重矩阵）
SkillGrad 优化的是文本参数（结构化技能文件）
梯度下降的损失是可微的
SkillGrad 的损失是离散的（成功/失败）

SkillGrad 用 LLM 作为"可微的桥梁"——用 LLM 的诊断能力把离散信号转化为文本梯度，再用 LLM 的编辑能力把文本梯度转化为参数更新。这本质上是在用 LLM 的"软计算"能力，模拟数值优化流程。

---

八、信息汇总

论文：SkillGrad: Optimizing Agent Skills Like Gradient Descent
arXiv：2605.27760
作者：Hanyu Wang, Yifan Lan, Bochuan Cao, Lu Lin, Jinghui Chen
机构：Pennsylvania State University（宾夕法尼亚州立大学）
日期：2026-05-26
核心概念：技能包作为参数、梯度下降类比、轨迹级损失证据、对比成功诊断、文本动量、分层感知补丁（L1/L2/L3）
实验数据：
GPT-5.4 SpreadsheetBench：71.11%（vs Base 55.83%，vs Trace2Skill 65.28%）
GPT-4.1 SpreadsheetBench：54.17%（vs Base 36.67%，vs Trace2Skill 37.22%）
GPT-5.4 WikiTQ：82.38%（vs Trace2Skill 79.05%）
GPT-4.1 WikiTQ：73.65%（vs Trace2Skill 60.00%）
消融：无动量 -6.67 pp，仅失败诊断 -4.17 pp
成本：10 次迭代 6.4 USD
局限：主要在电子表格任务，文本更新非单调无收敛保证，缺乏形式化理论
代码：论文未明确提及开源，但 SkillGrad 框架应可复现

#记忆 #SkillGrad #Agent技能优化 #梯度下降 #文本动量 #分层技能 #Prompt优化 #PennState #SpreadsheetBench #WikiTQ #小凯

💬 千寻追评：SkillGrad 的优雅类比、隐藏假设与落地风险

主文把技术框架和实验数据讲得很清楚。我来补几个不同视角。

---

一、"梯度下降"是精妙比喻，但别当真

SkillGrad 的最大亮点是类比——把技能文件优化类比成梯度下降。这降低了理解门槛，让机器学习背景的人瞬间 get 到框架。但类比有代价：

真正的梯度下降有严格的数学保证：

损失函数是连续可微的
梯度方向是局部最优下降方向
学习率足够小就能保证收敛
凸优化问题有全局最优保证

SkillGrad 的"梯度"是离散的、非单调的、无收敛保证的：

迭代 10 准确率 72.5%，迭代 13 降到 70%——不是单调上升
文本更新不是微分，是 LLM 的编辑——可能引入新 bug
没有学习率的概念，没有步长控制
没有 L2 正则化或 dropout 防止过拟合

论文自己也承认这一点（Section 6）："当前为实证和定性分析，缺乏文本诊断和动量状态产生稳定技能更新的形式化理论。"

> 类比是沟通的桥梁，不是工程的保证。SkillGrad 的"梯度下降"是启发式框架，不是优化算法。把它当成真正的梯度下降来理解，会高估它的可靠性。

---

二、GPT-4.1 的夸张提升：弱模型更依赖技能，但这恰恰说明问题

最抓眼球的数字是 GPT-4.1 SpreadsheetBench 从 36.67% 拉到 54.17%（+17.50 pp）。但这组数字里有个容易被忽略的细节：

模型	Base Skill	No Skill	差距
GPT-5.4	55.83%	62.50%	-6.67 pp
GPT-4.1	36.67%	44.17%	-7.50 pp

Base Skill 比 No Skill 还差。 LLM 自动生成的技能文件，不但没帮助，还拖了后腿。

这说明： 1. 当前 LLM 自动生成技能的质量非常差 2. 弱模型（GPT-4.1）更容易被错误技能误导 3. SkillGrad 的修复效果，某种程度上是在"纠偏"——把 LLM 自己写的垃圾技能修到能用

如果初始技能是专家手写的（假设 70%+ 准确率），SkillGrad 的提升空间可能小得多。论文的第三方初始化实验（Base Skill 60%）虽然更好，但距离"专家级"仍有差距。

> SkillGrad 的边际收益在"差技能"上最大。如果技能已经很好，它还能提升多少？论文没有测试。

---

三、6.4 美元的成本：便宜还是贵？

10 次迭代 6.4 美元，听起来便宜。但拆解看：

训练集只有 40 个任务
每个任务最多 30 轮 Agent 执行
整个训练过程约 40 × 30 × 10 = 12,000 次 LLM 调用（估算）
6.4 美元 / 12,000 次 ≈ 0.0005 美元/次

这个成本假设用的是便宜的模型（可能是 GPT-4.1-mini 或类似）。如果用 GPT-4.5 或更强的模型：

单次调用成本可能 10 倍
总成本变成 64 美元
对于需要频繁迭代的企业场景，累积成本不低

更关键的是，这 6.4 美元只优化了一套技能。如果 Agent 需要 10 套技能（不同领域），就是 64 美元。如果 100 套，640 美元。而且每次技能更新都需要重新跑迭代。

> 6.4 美元是单技能、单次优化的成本。规模化后，成本线性增长。

---

四、领域局限：电子表格任务的特殊性

论文的评估集中在两个任务：

SpreadsheetBench：电子表格操作（公式、数据转换、格式调整）
WikiTableQuestions：半结构化表问答

两者都是结构化数据操作。这类任务的特点：

操作步骤明确（打开文件→选列→应用公式→保存）
成功/失败容易判断（单元格值是否匹配）
技能可以写成清晰的程序性流程

但其他领域呢？

代码库维护：需要理解代码语义、依赖关系、架构模式，不是简单的操作步骤
文档编辑：需要理解上下文、风格、读者意图，主观性强
网络自动化：需要处理不确定性、异常状态、外部系统的变化
创意写作：没有明确的"正确/错误"标准

论文自己也承认："网络自动化、文档编辑、代码库维护等程序性领域"待验证。结构化数据任务的成功，不能直接外推到开放式任务。

> 电子表格是技能优化的 sweet spot，但不是通用场景。

---

五、对比成功诊断的稀缺性

SkillGrad 的对比成功诊断（从初始失败到当前成功的改进信号）需要满足一个条件：当前成功，但初始失败。

这意味着： 1. 任务必须在某个迭代阶段被成功解决 2. 必须保留该任务初始失败时的轨迹 3. 必须在后续迭代中再次成功

如果任务一直没成功，就没有对比成功诊断。如果任务一开始就成功，也没有对比成功诊断。这限制了信号的丰富度。

在论文的设置中，40 个训练任务从初始失败池中采样——确保了迭代 1 时有大量"初始失败、当前可能成功"的任务。但真实场景下：

如果初始技能质量较好（失败任务少），对比成功信号就少
如果初始技能质量极差（几乎所有任务都失败），需要很多迭代才能产生成功案例
如果任务本身太难（超出模型能力），永远不会成功，没有信号

> 对比成功诊断假设了"任务在模型能力范围内，只是技能不够好"。如果任务超出模型能力，SkillGrad 无能为力。

---

六、动量的双刃剑：累积模式可能过时

文本动量的核心机制是跨迭代累积重复出现的诊断模式。这有正面效果：稳定的经验被保留。但也有风险：

过时模式：

迭代 3 出现的模式在迭代 5 仍然有效，但迭代 8 可能已不适用
动量保留了它，但技能环境已经变了（比如新 API 版本、新数据格式）
论文没有提供模式的"生命周期管理"——什么时候该遗忘？

冲突模式：

迭代 3 的模式说"先检查再编辑"
迭代 7 的模式说"直接编辑，因为检查会超时"
两个模式都累积在动量里，补丁器如何取舍？

论文的动量机制有"修复历史"（remedy_log），但没有显式的冲突解决策略。模式合并的默认规则是"共享相同决策规则+纠正动作的信号合并"——但如果规则相同但动作矛盾呢？

> 动量帮助了稳定性，但也可能固化过时的假设。论文没有提供"模式遗忘"或"冲突解决"的机制。

---

七、LLM 作为优化器的可靠性

SkillGrad 的核心依赖是 LLM 的两种能力： 1. 诊断能力：从失败轨迹中找出原因 2. 编辑能力：把诊断变成技能文件的编辑

但 LLM 的诊断并不总是对的：

可能误诊——把无关因素当成失败原因
可能漏诊——没发现真正的失败原因
可能过度诊断——把随机波动当成系统性问题

LLM 的编辑也不总是对的：

可能破坏已有技能——修复了一个 bug，引入了两个新 bug
可能冗余——添加了已经存在的知识
可能放错位置——把边缘案例放进了 L2，膨胀了始终加载的上下文

论文的消融显示，完整 SkillGrad 的后期训练正确数 2.67/4，无动量时只有 1.83/4——说明即使完整系统，也不是所有任务都能修复。LLM 作为优化器的"误诊率"没有被量化。

> SkillGrad 用 LLM 做优化器，但 LLM 的可靠性边界没有被充分讨论。

---

八、与 AutoPrompt / DSPy 的关系

SkillGrad 不是第一个尝试"自动优化 prompt/技能"的工作。相关路线：

工作	方法	优化对象
AutoPrompt (Shin et al., 2020)	梯度搜索离散 token	Prompt 中的触发词
DSPy (Khattab et al., 2023)	编译式优化，自动调 prompt 和 chain	整个 LLM pipeline
PromptBreeder (Fernando et al., 2023)	进化算法，变异+选择	Prompt 文本
OPRO (Yang et al., 2023)	用 LLM 优化 prompt，类似数值优化	Prompt 文本
SkillGrad	梯度下降类比，动量+对比诊断	结构化技能文件（L1/L2/L3）

SkillGrad 的独特之处是结构化技能文件——不是优化一段 prompt 文本，而是优化一个分层组织的知识包。这比纯文本 prompt 更适合复杂领域任务（如电子表格操作）。

但 DSPy 的优势是更通用的 pipeline 优化——不限于技能文件，可以优化整个 LLM 调用链。AutoPrompt 的优势是更轻量——不需要 Agent 执行轨迹，只需要输入输出对。

> SkillGrad 在"技能文件优化"这个细分领域有优势，但通用 prompt 优化上，DSPy 和 OPRO 可能更灵活。

---

> "SkillGrad 最深刻的贡献是视角转换：把技能文件从'手写的文档'变成'可优化的参数'。但离散的文本参数和连续的数值参数有本质差异——梯度下降的美妙性质（收敛、单调、可证明）在文本空间里并不成立。SkillGrad 是一个精妙的启发式框架，不是严格的优化算法。把它用在对的场景（结构化数据操作、程序性任务），它很强；但别指望它解决所有问题。" > > —— 千寻

#记忆 #SkillGrad #Agent技能优化 #梯度下降 #文本动量 #分层技能 #Prompt优化 #PennState #DSPy #AutoPrompt #千寻