模型生成技能的「生命周期解剖」：75%有效，25%踩坑

一、问题的提出：技能自动化的盲区

2026年，Agent Skills已成为大模型智能体的标配。Anthropic的Agent Skills协议、阿里的Trace2Skill框架、SkillRL的递归技能进化——技能自动生成的技术路线看似繁荣，但一个基础问题始终未被系统回答：从经验到技能再到消费，全链路中什么真正决定了技能的下游效用？

现有工作各自覆盖了生命周期的一部分：SkillsBench用人工编写的种子技能做基准测试；SWE-Skills-Bench从公共技能库获取技能；Trace2Skill专注于技能提取阶段；SkillRL研究技能增强的强化学习。但没有人综合研究过经验生成→技能提取→技能消费完整生命周期中的关键变量。

这篇来自复旦、浙大、微软等机构的论文填补了这个空白。作者搭建了一个覆盖5个任务领域、6个目标模型、5个提取模型的统一评估框架，产生了150个数据点的完整实验矩阵。核心发现既验证直觉，也颠覆认知。

二、实验设计：一个全生命周期的评估框架

2.1 三阶段形式化定义

论文将技能生命周期严格定义为三个串联阶段：

阶段一：经验生成。目标模型M在领域D的训练集上执行任务，产生经验池T_M,D = {(task_i, trajectory_i, outcome_i)}。

阶段二：技能提取。提取模型E将经验池蒸馏为技能集S_E,M,D = E(T_M,D)。

阶段三：技能消费。同一目标模型M在测试集上使用技能S，测量性能变化Δ(E,M,D) = Perf(M|S) - Perf(M|∅)。

2.2 五大任务领域

领域	基准测试	核心能力需求
具身交互	ALFWorld	物理常识、探索、多步规划
生产力软件	SpreadsheetBench	表格检查、公式推理、值编辑
软件工程	SWE-bench-Verified	代码库理解、故障定位、补丁生成
网页搜索	SEAL-0	检索、证据综合、多跳推理
工具调用	BFCL-v4	函数选择、参数提取、多轮工具使用

这五个领域横跨物理交互、结构化数据处理、代码推理、信息检索和API调用——几乎覆盖了当前智能体的主流应用场景。

2.3 模型矩阵：6目标 × 5提取器

模型	角色	能力定位
GPT-5.4	目标+提取器	最强基线
GPT-5.4-mini	目标+提取器	轻量版本
Gemini-3.1-Pro	目标+提取器	多模态强
Gemini-3.1-Flash-Lite	目标+提取器	轻量高效
Qwen3.5-35B	目标+提取器	开源中等规模
Qwen3.5-9B	仅目标	无法可靠执行结构化提取协议

150个数据点的完整矩阵让论文能够回答一个关键问题：技能效用是由提取器决定的、由目标模型决定的、还是由二者的交互决定的？

三、核心发现：75%有效，25%负迁移

3.1 总体图景：有效但不保证

完整Δ矩阵揭示了一个复杂的图景：75%的条目显示正迁移（Δ>0），但25%显示负迁移（Δ<0）。这意味着模型生成的技能平均有帮助，但并非普遍有益。

领域	正迁移率	负迁移率	脆弱性
ALFWorld	53%	47%	最脆弱
SpreadsheetBench	87%	13%	最稳定
SWE-bench-Verified	87%	13%	最稳定
SEAL-0	70%	30%	中等
BFCL-v4	70%	30%	中等

ALFWorld的47%负迁移率尤其刺眼——这是一个需要物理常识和多步探索的领域，技能的形式化约束反而会限制智能体的探索空间。

3.2 颠覆认知：提取能力≠消费能力

论文中最反直觉的发现：模型的任务解决能力不能预测其技能提取质量。

GPT-5.4在SpreadsheetBench上的基线性能最强（37.17%），但作为提取器，它的提取效能EE排名最后（+1.67pp）。相反，Gemini-3.1-Flash-Lite作为提取器的EE最高（+5.86pp），尽管它的基线性能并非最强。

这意味着擅长做任务 ≠ 擅长从任务中总结可复用的经验。这个发现对技能自动生成系统的架构设计有深远影响：最优配置可能是让强模型执行任务产生轨迹，让另一个模型专门负责提取——而非让同一个模型既做又总结。

3.3 目标可进化性的剧烈差异

同一提取器在不同目标模型上的效果差异巨大。以ALFWorld为例：

提取器→目标	GPT-5.4	GPT-5.4-mini	Gemini-3.1-Pro	Gemini-3.1-FL	Qwen3.5-35B
GPT-5.4提取	+4.23pp	+2.84pp	-0.15pp	-1.59pp	-1.34pp

Gemini-3.1-Pro、Gemini-3.1-FL、Qwen3.5-35B在使用GPT-5.4提取的技能时全部负迁移。这说明技能的消费能力是模型特定的——一个模型提取的技能对另一个模型可能是毒药。

四、生命周期深度拆解：什么驱动了技能效用

4.1 经验生成阶段：失败轨迹的价值

论文系统测试了经验池中成功/失败轨迹的配比对下游效果的影响。固定提取器GPT-5.4-mini，从同一来源轨迹中采样5种成功比例：100%、75%、50%、25%、0%。

结果出人意料：纯失败池始终最差，但最优配比是领域特定的——ALFWorld在25%-50%成功比例时最优（失败偏重反而更好），而SpreadsheetBench和SWE-bench-Verified在75%-100%成功比例时最优。

这揭示了两种经验类型的不同作用：成功轨迹提供积极的程序信号（"这样做是对的"），失败轨迹提供消极的约束信号（"这样做会碰壁"）。ALFWorld的探索性质让"碰壁经验"格外有价值——知道哪些路不通，能大幅缩小搜索空间。而SpreadsheetBench的规则性让"成功经验"更直接可复用。

4.2 技能提取阶段：内容驱动而非形式驱动

论文测试了技能的不同文本格式（有序列表、无序列表、检查清单、散文体）对效果的影响。Friedman检验p>0.34，σ-ratio < 1——格式效应不超过运行噪声。

相比之下，更换提取器在5/6目标上产生显著效应（p<<0.01，σ-ratio>1）。这意味着方差由技能内容驱动，而非形式。这是一个解放性的发现：技能设计师不必纠结于"用bullet points还是numbered list"，而应聚焦于内容的准确性和覆盖度。

4.3 技能消费阶段：文本可信度与实用性的脱节

GPT-5.4作为评委，仅看技能文本选择"更好的技能"，其选择与下游任务性能的相关性仅为0.31。这意味着人类（或强模型）觉得"看起来对"的技能，实际效果可能很糟。

这一发现对当前技能生态有警示意义：如果技能的质量不能通过静态文本评估来预测，那么技能市场（如未来的"Skills Store"）需要动态的、基于实际消费效果的质量评级机制，而非仅靠"专家评审"。

五、元技能框架：从发现问题到解决问题

基于上述实证发现，论文提出了效用导向的元技能提取策略。核心洞察是：与其让提取模型自由生成技能，不如引导它优先生成和"实际效用"相关的技能特征。

元技能框架的设计包含几个关键组件：

效用感知提取：在技能提取阶段，让提取模型同时预测每个候选技能对下游任务的预期效用，优先保留高预期效用的技能。

负迁移抑制：当技能在测试消费阶段产生负迁移时，自动回滚并标记该技能为"高风险"，后续提取中降低其权重或排除。

跨领域元技能：识别在多个领域中都有效的"元技能模式"（如"先验证输入格式再处理"、"遇到异常时回退到默认策略"），这些跨领域模式比领域特定技能更稳定。

实验表明，元技能框架在多个领域稳定提升了技能质量，并显著降低了负迁移率。更重要的是，这一框架不需要额外训练——完全基于提取时的提示工程实现，这意味着它可以零成本地集成到现有的技能提取流程中。

六、战略审视：技能自动化的真实边界

6.1 技能效用不可预测的深层原因

论文揭示了一个令人不安的事实：在当前技术条件下，技能对下游任务的效果本质上是不可完全预测的。这是因为：

提取器和目标模型的交互是非线性的——同一个提取器对不同目标的效果差异巨大；技能的文本质量与实际效用脱节——强模型作为评委的准确率仅0.31；领域特性决定了经验的有效配比——没有通用最优配方。

这意味着技能自动化系统需要在线验证闭环：生成技能→小规模A/B测试→保留有效技能、淘汰负迁移技能→迭代提取。静态的"一次提取永久使用"模式行不通。

6.2 与Trace2Skill的互补关系

阿里团队的Trace2Skill（arXiv:2603.25158）展示了技能提取的强大能力——Qwen3.5-35B提取的技能让Qwen3.5-122B在WikiTableQuestions上提升57.65个百分点。但这篇论文揭示了一个更复杂的图景：这样的成功案例并非普遍规律。

Trace2Skill的成功依赖于特定的任务-模型组合（电子表格任务、Qwen模型族），而本文的系统性研究表明，跨领域、跨模型族的迁移效果高度不确定。两篇论文合在一起，构成了技能自动化的完整认知：Trace2Skill告诉我们"可以做得很好"，这篇论文告诉我们"在什么条件下会做得不好"。

6.3 对Agent生态的启示

技能不应该被当作"静态资产"管理。当前Anthropic的Agent Skills协议、各类Skills Store的设计，都倾向于将技能视为可安装、可复用的静态模块。但论文表明，技能的消费效果是高度上下文依赖的——同一个技能在不同模型、不同任务上的效果可能从+14pp到-3pp不等。

未来的技能生态可能需要：动态适配层（根据目标模型能力自动调整技能表述）、效用追踪系统（记录每个技能在不同模型-任务组合上的历史表现）、A/B测试基础设施（新技能上线前的小规模验证）。

七、结论

这篇论文的最大价值不在于提出了某个突破性算法，而在于用系统性实证拆碎了关于技能自动化的若干迷思：

"模型越强，提取的技能越好"——错误。GPT-5.4任务最强，提取排名最后。
"技能文本写得越专业，效果越好"——错误。文本质量与实际效用相关性仅0.31。
"成功经验越多越好"——错误。ALFWorld的最优配比是失败偏重。
"技能可以一次提取、到处复用"——错误。跨模型迁移效果高度不确定。

论文的务实贡献是元技能框架——一个零训练成本的提取策略改进，通过效用感知和负迁移抑制稳定提升了技能质量。这对正在建设技能生态的团队来说，是一个立即可用的工具。

技能自动化的未来，不是"让AI自动写出完美的技能"，而是"建立一套可验证、可回滚、可适配的技能生产流水线"。这篇论文为这条流水线提供了第一块地基。

---

参考与延伸

论文：From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills（arXiv:2605.23899）
Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills（arXiv:2603.25158）
Anthropic Agent Skills 协议
SkillRL: Recursive Skill-Augmented RL for Agent Evolution
Agent Skills 开放标准

#AgentSkills #技能自动化 #智能体 #大模型 #负迁移 #元技能 #技能提取 #AI研究 #复旦大学 #微软 #小凯