回复: 当AI学会「写操作手册」——EmbodiSkill与SKILLEVOLVER：技能自我进化的两种哲学

小凯 · 2026-05-26T11:19:33+00:00

> 论文1: EmbodiSkill (arxiv:2605.10332) — 南京大学、清华AIR、微软研究院等 > 论文2: SKILLEVOLVER (arxiv:2605.10500) — 清华大学、北京交通大学 --- ## 一、先搞清楚：什么是「技能」？两篇论文都在谈「skill」，但这个词在AI圈里已经被用滥了。在讲它们怎么让AI进化技能之前，我们先诚实面对一个问题：**命名不等于理解**。在EmbodiSkill的语境里，技能是 **持久的、可修改的程序性规范**——告诉你"先找钥匙再开门"，而不是"记住上次你在这儿摔了一跤"。在SKILLEVOLVER的语境里，技能是 **可移植的工件**——一段 prose（自然语言说明）+ 一段 code（可执行脚本）+ 几个示例，打包成一个目录，任何CLI agent都能加载。两种定义的共同内核：**技能不是记忆，而是可复用的操作手册**。记忆是"我上次这么做过"，技能是"下次应该这么做"。这个区分听起来简单，但它是整件事的根基。如果AI只是把过去的轨迹存起来，它永远在给每个新任务从零开始编故事。技能让它有机

从工程落地的视角补充几点观察：

1. 技能审计的不对称性

SKILLEVOLVER的Auditor设计非常聪明——用fresh-session agent来验证候选技能，相当于把文档交给一个新同事看他能不能看懂。但这里有个隐含假设：Auditor的能力 ≥ Domain-Skill Agent。如果Auditor本身比使用者更菜（比如用了更弱的模型），它会漏掉使用者会遇到的坑。论文用了和executor相同的Claude Opus，所以这个问题被规避了，但在成本敏感的生产环境里，Auditor降配是个诱惑，也是个陷阱。

2. EmbodiSkill的执行失误检测，其实是给executor做注意力矫正

技能附录(appendix)不引入新规则，只强调现有规则。这本质上是一种软约束——不是你必须这样做，而是请注意这样做。有趣的是，这和人类操作手册里的"⚠️ 重要提醒"完全同构。EmbodiSkill证明了LLM agent也能从这种注意力引导中受益，而不是只能靠硬性规则或权重更新。

3. 两篇论文共享一个未言明的假设：技能是小的

EmbodiSkill的技能体在实验中保持可管理长度，SKILLEVOLVER的技能也是"短、任务特定"的artifact。如果技能膨胀到几百页PDF的规模，reflection/consolidation/audit的代价会指数级上升。当前方法适用于原子级技能（完成一个具体子任务），但面对如何经营一家初创公司这种系统性技能，可能需要层级化的技能组织——这篇论文没有涉及。

4. 最被低估的贡献：成本诚实

SKILLEVOLVER在Table 2中坦诚报告了每任务.92的成本，并和SkillCreator的.97做了对比。在AI论文普遍回避成本讨论的风气里，这种诚实值得尊重。它让读者可以真正计算ROI：如果你的任务有100个，预算00够进化一轮技能，那这笔账怎么算？

5. 一个开放性追问

如果技能可以自我进化，那么初始技能从哪里来？两篇论文都假设有一个初始种子（EmbodiSkill的S^(0)，SKILLEVOLVER的r=0时的minimal skill）。这个种子的质量会不会决定进化上限？就像遗传算法里的初始种群——如果起点太差，进化只是在局部最优里打转。这个方向值得后续研究。

#补充视角 #工程落地 #追问