SKILLGRAPH：把技能库从"词条列表"升级为"关系图谱"——中科大+阿里团队让Agent学会技能编排

> 论文：SKILLGRAPH: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs > 作者：Xiaoyuan Li¹, Moxin Li¹, Keqin Bao¹, Yubo Ma², Wenjie Wang¹, Dayiheng Liu², Fuli Feng¹ > 机构：¹中国科学技术大学 / ²阿里巴巴集团 / ³新加坡国立大学 > 链接：https://arxiv.org/abs/2605.12039 > 标签：#Agent #技能图 #强化学习 #组合规划 #LLM #中科大 #阿里

---

一、扁平技能库的两大死穴

现有 LLM Agent 的 skill library 本质上是一个词条列表——把经验蒸馏成自然语言描述，存入向量数据库，需要时按语义相似性检索。这够用吗？单步任务够。多步组合任务，不够。

中科大与阿里团队点破两个结构性缺陷：

第一，组合盲区。 Agent 不仅需要找到"相关技能"，更要明白技能之间的依赖顺序——哪些必须先执行，哪些可以互相增强，哪些经常一起出现。扁平检索给不了你这些。

第二，维护困局。 当技能库膨胀到几百条，系统没法判断哪两条该合并、哪一条该拆分、哪一条已过时。缺少结构线索，维护全靠人工。

SKILLGRAPH 的解法：把技能库从词条列表升级成有向图。

---

二、三种关系边：技能不是孤岛的

SKILLGRAPH 中每个技能是一个节点，边有三种类型，分别编码不同的关系：

边类型	含义	例子
Prerequisite（前置依赖）	A 必须在 B 之前执行	"打开冰箱" → "取出鸡蛋"
Enhancement（增强）	通用技能增强特定技能的效果	"搜索技巧" 增强 "比价技能"
Co-occurrence（共现）	两技能在成功轨迹中常一起出现	"查看评价" 与 "加入购物车"

三种边的构建方式各不相同：

Prerequisite 从成功轨迹的路径强化中自动发现——当技能序列按顺序执行且成功，沿途边的权重增加
Enhancement 初始化时把通用技能连接到所有任务特定技能
Co-occurrence 当两技能在至少 2 个成功 episode 中同时出现，自动添加

这赋予了技能库一个被长期忽视的能力：拓扑排序。给定新任务，SKILLGRAPH 不是返回一堆相关技能的平面列表，而是返回一个按依赖顺序排列的技能子图，直接指导多步决策。

---

三、图感知检索：从"找相似"到"找路径"

检索过程分三步走：

1. 种子选择：挑选与当前任务相关的通用技能和任务特定技能 2. 双向遍历：

后向 BFS（深度 2）：追溯前置依赖——"要做 B，先得做 A"
前向 Beam（束宽 3）：探索增强关系——"做完 A，B 的效果更好"

3. 拓扑排序：将收集到的技能节点按层级排序，输出上限 8 个技能的有序序列

这比语义检索高明在哪里？

ALFWorld 的 Clean 任务需要"先拿起物品 → 再放到水槽 → 再打开水龙头 → 再清洗"。图检索能强制这个顺序。消融实验证明：移除图感知检索，ALFWorld 成功率从 90.6% 暴跌到 59.4%，降幅 −31.2 点——严格顺序任务极度依赖前置排序。

---

四、图演化：技能库自己长脑子

SKILLGRAPH 不是静态图。它和 Agent 策略协同演化，形成一个闭环：

> 策略改进 → 产生更丰富的轨迹 → 更好的图结构 → 更精准的检索 → 更强的策略

4.1 节点层面的自调节

操作	触发条件	效果
插入	现有技能无法覆盖的新失败模式	教师模型分析失败轨迹，生成最多 3 个新技能
合并	两技能的邻居重叠度 ≥ 85%	合成统一技能，继承并集边
拆分	使用率高但成功率极低（15%~40%）	分解为子技能，用 prereq 边连接
废弃	大量使用但成功率 < 15%	移出活跃集合，保留审计

4.2 渐进解锁（Progressive Unlocking）

这是 SKILLGRAPH 最像"课程学习"的机制：

初始只激活level-0 技能（无前置依赖的基础技能）
当当前层平均成功率 ≥ 60% 时，自动解锁下一层
防止 Agent 过早接触复杂技能导致崩溃

WebShop 训练过程的演化数据很有说服力：

总节点从 ~20 增长到 ~140
活跃节点稳定在 ~80（废弃机制防止无限膨胀）
平均节点成功率从 ~0.15 上升到 ~0.55

图的自我净化能力清晰可见。

---

五、实验数据：三种场景全面碾压

5.1 ALFWorld（ embodied 操作，6 个子任务）

方法	总体成功率
GPT-4o	48.0%
Gemini-2.5-Pro	60.3%
ReAct	31.2%
SkillRL（最强基线）	89.9%
SKILLGRAPH	90.6%

Clean 和 Heat 两个子任务达到 100%——严格顺序执行的任务，图结构优势最大化。

5.2 WebShop（电商导航，最亮眼）

方法	Score	成功率
GPT-4o	31.8	23.7%
SkillRL	85.2	72.7%
SKILLGRAPH	91.5	84.4%

相比 SkillRL +11.7 分。为什么 WebShop 提升最大？因为电商导航需要持续发现新关系——query refinement → attribute matching → price comparison，图演化比静态技能库更能捕捉这种动态组合。

5.3 Search-Augmented QA（七种任务，零样本迁移）

仅在 NQ 和 HotpotQA 上训练，零样本迁移到 5 个未见数据集：

方法	平均准确率
Search-R1	38.5%
ZeroSearch	39.1%
SkillRL	47.1%
SKILLGRAPH	48.9%

多跳任务（HotpotQA、2Wiki）优势最明显——前置依赖排序帮助把链式查询分解为子问题。

---

六、消融实验：拆穿什么最重要

变体	ALFWorld	WebShop
完整 SKILLGRAPH	90.6	84.4
无图结构（扁平库）	89.9	72.7
无图感知检索	59.4	79.7
无图演化（静态图）	78.2	70.3
无冷启动 SFT	73.4	67.2

两个关键洞察： 1. ALFWorld：图感知检索最重要（−31.2），顺序执行场景依赖前置排序 2. WebShop：图演化最重要（−14.1），动态场景需要持续更新技能关系

冷启动 SFT 是根基——没有它，RL 根本收敛不了。

---

七、与 SkillRL 的深度对比

SKILLGRAPH 最直接的竞争者是 SkillRL（同作者前作）。两者的差异体现从"库"到"图"的范式升级：

维度	SkillRL	SKILLGRAPH
技能组织	扁平层级库	有向依赖图
检索方式	语义相似性	图遍历 + 拓扑排序
关系建模	隐式/无	显式 prereq / enhance / co-occur
演化机制	递归 RL 更新	节点 + 边双级别 + 渐进解锁
WebShop	72.7%	84.4%

WebShop 的 11.7 分差距，是"图结构价值"的最佳证据。

---

八、局限与延伸

局限： 1. 教师模型依赖——新技能插入/合并/拆分全靠 OpenAI o3，成本不菲 2. 规模天花板——当前 LLM 上下文长度限制图的大小，超大规模技能图可能需要分层或压缩 3. 边类型有限——三种边覆盖了常见关系，但特定领域可能有更复杂的依赖模式（如互斥、替代）

延伸方向：

与代码生成结合（如 CSRO），让技能节点变成可执行函数
跨 Agent 技能共享——多个 Agent 的经验汇聚到同一个图
人机协作维护——人类专家直接编辑图结构，Agent 负责验证

---

九、判断：从"记忆"到"编排"

SKILLGRAPH 的核心洞见可以浓缩为一句话：

> Agent 不缺记忆，缺的是记忆之间的"语法"。

现有方法把经验存成词条，检索时靠语义相似性"猜"哪些相关。SKILLGRAPH 把经验组织成图，检索时按依赖关系"推演"执行顺序。这不是量的差别，是质的差别——从"回忆"到"编排"。

ALFWorld 的 100% Clean/Heat、WebShop 的 +11.7 分、QA 的零样本迁移，都在证明同一个事实：当任务需要组合多个技能时，知道"有什么"不够，知道"先做什么、后做什么、什么能增强什么"才决定成败。

SKILLGRAPH 给 Agent 装上了这个能力。

---

参考论文： Li, X., Li, M., Bao, K., Ma, Y., Wang, W., Liu, D., & Feng, F. (2026). SKILLGRAPH: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs. *arXiv preprint arXiv:2605.12039*. https://arxiv.org/abs/2605.12039

#深度研究 #Agent #技能图 #强化学习 #组合规划 #LLM #中科大 #阿里 #小凯