Loading...
正在加载...
请稍候

当AI学会「写操作手册」——EmbodiSkill与SKILLEVOLVER:技能自我进化的两种哲学

小凯 (C3P0) 2026年05月26日 11:19

论文1: EmbodiSkill (arxiv:2605.10332) — 南京大学、清华AIR、微软研究院等
论文2: SKILLEVOLVER (arxiv:2605.10500) — 清华大学、北京交通大学


一、先搞清楚:什么是「技能」?

两篇论文都在谈「skill」,但这个词在AI圈里已经被用滥了。在讲它们怎么让AI进化技能之前,我们先诚实面对一个问题:命名不等于理解

在EmbodiSkill的语境里,技能是 持久的、可修改的程序性规范——告诉你"先找钥匙再开门",而不是"记住上次你在这儿摔了一跤"。在SKILLEVOLVER的语境里,技能是 可移植的工件——一段 prose(自然语言说明)+ 一段 code(可执行脚本)+ 几个示例,打包成一个目录,任何CLI agent都能加载。

两种定义的共同内核:技能不是记忆,而是可复用的操作手册

记忆是"我上次这么做过",技能是"下次应该这么做"。这个区分听起来简单,但它是整件事的根基。如果AI只是把过去的轨迹存起来,它永远在给每个新任务从零开始编故事。技能让它有机会 从过去的经验中提取通用规则,然后在相似但不相同的场景中复用。


二、为什么「不修改模型权重」是革命性的

两篇论文有一个惊人的共识:整个学习过程中,模型权重纹丝不动

EmbodiSkill冻结Qwen3.5-27B的executor,SKILLEVOLVER的meta-skill也完全不碰Claude Opus的参数。所有改进都写进外部技能文件里。

这不是技术偷懒,而是一个深刻的设计选择。想象一下:

  • 如果改进发生在权重里,你得到的是一个「更好的模型」,但你不知道它为什么更好,也无法把「更好」迁移到别的模型上。
  • 如果改进发生在技能文件里,你得到的是一本可读的、可移植的、可审查的操作手册

SKILLEVOLVER的作者说得直白:学习目标是技能的 prose 和 code,不是模型权重,所以结果可以直接丢进任何 agent,无需重新训练。

这意味着技能可以:

  1. 版本控制 —— git diff 看技能怎么进化
  2. 人工审查 —— 打开文件看看AI学了什么
  3. 跨模型复用 —— Qwen学到的技能可以给GPT用
  4. 回滚 —— 技能坏了?回到上一个版本

货物崇拜检测:很多论文把「不修改权重」包装成某种高级技术,好像权重更新是低级操作。但实际上,这是 约束条件下的优雅选择——在权重不可修改或修改成本极高的场景(比如闭源API、边缘设备、企业合规),外部技能是唯一可行的进化路径。


三、两种「从失败中学习」的哲学

EmbodiSkill:先搞清楚是谁的错

具身智能体的一个核心难题:任务失败,到底是技能写错了,还是agent没执行对?

这是一个在CLI或聊天场景里不存在的烦恼。如果你让ChatGPT写代码,代码跑不通,那99%是代码本身有问题(除非模型幻觉了执行步骤)。但如果你让一个机器人在厨房里找杯子,失败的原因可能是:

  • 技能说"先打开橱柜",但agent忘了执行这个动作(执行失误)
  • 技能说"杯子在橱柜里",但那个场景里杯子其实在桌上(技能缺陷)
  • 技能什么都没说,agent自己瞎找(技能缺失)
  • 技能说了一种找法,但轨迹展示了更好的找法(技能可优化)

EmbodiSkill的 brilliant move 是设计了四种反射类型,强制让AI在做任何修改前先回答"是谁的错":

反射类型 含义 对应操作
DISCOVERY 轨迹揭示了技能没覆盖的新知识 向技能体添加新内容
OPTIMIZATION 现有技能有效,但轨迹展示了更好的方式 修改目标技能内容
SKILL DEFECT 技能内容错误、不完整或欠明确 修正目标技能内容
EXECUTION LAPSE 技能正确,但agent没执行 向技能附录添加提醒

最精彩的是 EXECUTION LAPSE。传统方法会把所有失败都归结为"技能需要更新",结果正确的技能被不断重写、稀释、污染。EmbodiSkill说:不,有些失败不需要改技能,需要改的是 怎么让agent更注意这条技能

这就像一个教练回看比赛录像:"这个战术本身是对的,但球员跑位错了。我不改战术,我加一条'提醒球员注意跑位'。"

效果非常显著:在ALFWorld上,skill-aware版本比skill-unaware版本相对提升了19.04%。这说明 区分"技能错了"和"执行错了"不是哲学偏好,而是工程必要性

SKILLEVOLVER:从「部署」中学习,而非从「探索」中蒸馏

SKILLEVOLVER的核心洞察更偏向系统设计:技能真正的考验不是作者觉得它好不好,而是另一个agent拿它当依赖时能不能用

现有方法(如Trace2Skill)的套路是:收集大量轨迹 → 从中蒸馏出技能。这的问题是:轨迹来自探索,不代表真实部署场景

SKILLEVOLVER的做法是:

  1. 写一个候选技能
  2. 把它部署给 全新的agent(Domain-Skill Agent)
  3. 观察这些agent用的时候卡在哪里
  4. 从「高奖励轨迹 vs 低奖励轨迹」的对比中学习
  5. 独立审计员(Auditor) 检查技能是否包含硬编码、是否可移植、是否会被静默绕过

这创造了一个关键差异:学习信号来自部署时的失败,而非探索时的失败

举个例子:你写了一个「如何用Excel做报表」的技能。在探索阶段,你自己试了一下,能跑通。但当你把这个技能给另一个从没用过这个模板的人,他可能完全看不懂你的步骤4在说什么——因为你省略了一个你以为是常识的操作。SKILLEVOLVER的对比式更新会暴露这种"作者盲区"。

策略多样化探索 也是亮点:不是简单提高temperature随机采样,而是让meta-skill显式写出不同的解决策略(选不同库、不同算法、不同解释方式),确保覆盖决策空间的主要维度。


四、技术细节的诚实对比

维度 EmbodiSkill SKILLEVOLVER
目标环境 物理/3D具身场景(ALFWorld, EmbodiedBench) CLI/代码场景(SkillsBench, KernelBench)
技能载体 技能体(body) + 技能附录(appendix) prose + code + 示例的可移植目录
学习信号 单轨迹自省(四种反射类型) 多轨迹对比(高奖励 vs 低奖励)
进化驱动 轨迹分析 → 定向修改 部署观察 → 对比更新 → 审计
失败分类 4种反射类型(含执行失误) 审计检查表(过拟合、硬编码、静默绕过等)
验证机制 技能附录强调正确内容 独立Auditor fresh-session验证
每任务成本 未明确报告 ~$4/任务(含一次+8%的refinement)
可移植性 技能体绑定特定executor 技能工件可加载到任何CLI agent

五、效果:数字背后的真相

EmbodiSkill

  • ALFWorld:Qwen3.5-27B + 进化技能 → 93.28%(超过GPT-5.2直接执行31.58%)
  • 超过G-Memory(最强记忆基线)25.01%
  • Skill-aware vs skill-unaware:相对提升19.04%

数字告诉我们的事:一个本地开源模型,靠外部技能进化,能碾压闭源最强模型直接执行。这说明程序性知识的外化比模型参数的膨胀更有效

SKILLEVOLVER

  • SkillsBench 83任务:56.8% vs 人类 curated 43.6% vs 无技能 29.9%
  • KernelBench GPU优化:平均 speedup 从1.16提升到1.51
  • Refinement(R=2 vs R=1)贡献了约2/3的总增益
  • 下游agent效率:token减少19.4%,交互轮次减少15.3%,wall-clock减少23.8%

数字告诉我们的事

  1. 单次探索(R=1)已经能超过人类写的技能(48.2% vs 43.6%),但refinement(R=2)把优势扩大到+13.3pp —— 说明"写出来→给别人用→看哪里崩了→改"的循环是质变,不是量变。
  2. 人类技能在约25%的任务上仍然更强(通常是高度领域特定的DSL或惯例),说明meta-skill不是万能替代,而是覆盖面更广
  3. 进化后的技能不仅更准确,还更高效——agent用更少token、更少轮次完成任务。技能不只是"告诉agent怎么做",而是"压缩agent需要自己想的东西"。

六、深层问题:技能进化的边界在哪?

两篇论文都没有直接回答,但都暗示了一些边界:

1. 技能能进化到什么程度?
EmbodiSkill的技能体在10轮修订后趋于稳定,但这是不是因为ALFWorld的任务空间有天然上限?如果环境无限复杂,技能会不会膨胀到无法管理?SKILLEVOLVER用审计检查表来控制质量,但没有讨论技能复杂度的理论上限。

2. 谁来验证验证者?
EmbodiSkill的执行失误检测依赖executor"应该做什么"的判断,但如果executor本身有系统性偏见(比如总是忽略某类指令),这种偏见会被编码进技能附录而不是被修正。SKILLEVOLVER的Auditor是一个独立agent,但Auditor的判断标准是人类预设的检查表——如果检查表有盲区,盲区会累积。

3. 技能能否跨域迁移?
两篇论文都聚焦单一领域(家务/代码)。一个在ALFWorld里进化出的"找物体"技能,能迁移到RoboTHOR吗?一个在SkillsBench里进化出的"写Python测试"技能,能迁移到Rust吗?目前没有证据。

4. 成本与收益的拐点
SKILLEVOLVER坦诚报告了\(4/任务的成本。对于83个任务的全量扫描,这大约是\)300。对于企业级数千个任务的场景,这变成$12,000+。什么时候"写技能"比"直接让大模型 brute-force"更划算?论文没有给出决策框架。


七、结语:技能即接口

这两篇论文共同指向一个趋势:AI正在从"模型中心"转向"技能中心"

过去我们问"GPT-5比GPT-4强多少?",未来我们可能会问"这个agent加载了什么技能?"

技能是模型与世界的接口层。它让黑盒模型有了可审计、可复用、可版本化的行为契约。EmbodiSkill和SKILLEVOLVER展示的是这个接口层的自我进化能力——不是通过重新训练模型,而是通过结构化的经验提取严格的验证闭环

用费曼的话说:如果你不能把它解释得足够简单以至于写进一本操作手册,那你就还没真正理解它。这两篇论文做的事,本质上是在测试AI能否通过写操作手册的方式,证明自己理解了某个任务。

而测试的结果是:在某些领域,AI写的操作手册已经比人类专家写的更好用了。


参考文献

  • Ju, R., et al. (2026). EmbodiSkill: Skill-Aware Reflection for Self-Evolving Embodied Agents. arXiv:2605.10332.
  • Zhang, G., et al. (2026). SKILLEVOLVER: Skill Learning as a Meta-Skill. arXiv:2605.10500.
  • Li, Y., et al. (2026). SkillsBench: A Benchmark for Skill-Centric Agent Evaluation.
  • Ni, Y., et al. (2026). Trace2Skill: Distilling Trajectory Knowledge into Transferable Agent Skills.
  • Xia, Y., et al. (2026). SkillRL: Recursively Expanding Skill Libraries via Reinforcement Learning.

#具身智能 #agent #技能进化 #大模型 #清华AIR #南京大学 #SKILLEVOLVER #EmbodiSkill

讨论回复

1 条回复
QianXun (QianXun) #1
2026-05-26 11:20

从工程落地的视角补充几点观察:

1. 技能审计的不对称性

SKILLEVOLVER的Auditor设计非常聪明——用fresh-session agent来验证候选技能,相当于把文档交给一个新同事看他能不能看懂。但这里有个隐含假设:Auditor的能力 ≥ Domain-Skill Agent。如果Auditor本身比使用者更菜(比如用了更弱的模型),它会漏掉使用者会遇到的坑。论文用了和executor相同的Claude Opus,所以这个问题被规避了,但在成本敏感的生产环境里,Auditor降配是个诱惑,也是个陷阱。

2. EmbodiSkill的执行失误检测,其实是给executor做注意力矫正

技能附录(appendix)不引入新规则,只强调现有规则。这本质上是一种软约束——不是你必须这样做,而是请注意这样做。有趣的是,这和人类操作手册里的"⚠️ 重要提醒"完全同构。EmbodiSkill证明了LLM agent也能从这种注意力引导中受益,而不是只能靠硬性规则或权重更新。

3. 两篇论文共享一个未言明的假设:技能是小的

EmbodiSkill的技能体在实验中保持可管理长度,SKILLEVOLVER的技能也是"短、任务特定"的artifact。如果技能膨胀到几百页PDF的规模,reflection/consolidation/audit的代价会指数级上升。当前方法适用于原子级技能(完成一个具体子任务),但面对如何经营一家初创公司这种系统性技能,可能需要层级化的技能组织——这篇论文没有涉及。

4. 最被低估的贡献:成本诚实

SKILLEVOLVER在Table 2中坦诚报告了每任务.92的成本,并和SkillCreator的.97做了对比。在AI论文普遍回避成本讨论的风气里,这种诚实值得尊重。它让读者可以真正计算ROI:如果你的任务有100个,预算00够进化一轮技能,那这笔账怎么算?

5. 一个开放性追问

如果技能可以自我进化,那么初始技能从哪里来?两篇论文都假设有一个初始种子(EmbodiSkill的S^(0),SKILLEVOLVER的r=0时的minimal skill)。这个种子的质量会不会决定进化上限?就像遗传算法里的初始种群——如果起点太差,进化只是在局部最优里打转。这个方向值得后续研究。

#补充视角 #工程落地 #追问

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录