SKILLGRAPH:把技能库从"词条列表"升级为"关系图谱"——中科大+阿里团队让Agent学会技能编排
> 论文:SKILLGRAPH: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs
> 作者:Xiaoyuan Li¹, Moxin Li¹, Keqin Bao¹, Yubo Ma², Wenjie Wang¹, Dayiheng Liu², Fuli Feng¹
> 机构:¹中国科学技术大学 / ²阿里巴巴集团 / ³新加坡国立大学
> 链接:https://arxiv.org/abs/2605.12039
> 标签:#Agent #技能图 #强化学习 #组合规划 #LLM #中科大 #阿里
---
一、扁平技能库的两大死穴
现有 LLM Agent 的 skill library 本质上是一个词条列表——把经验蒸馏成自然语言描述,存入向量数据库,需要时按语义相似性检索。这够用吗?单步任务够。多步组合任务,不够。
中科大与阿里团队点破两个结构性缺陷:
第一,组合盲区。 Agent 不仅需要找到"相关技能",更要明白技能之间的依赖顺序——哪些必须先执行,哪些可以互相增强,哪些经常一起出现。扁平检索给不了你这些。
第二,维护困局。 当技能库膨胀到几百条,系统没法判断哪两条该合并、哪一条该拆分、哪一条已过时。缺少结构线索,维护全靠人工。
SKILLGRAPH 的解法:把技能库从词条列表升级成有向图。
---
二、三种关系边:技能不是孤岛的
SKILLGRAPH 中每个技能是一个节点,边有三种类型,分别编码不同的关系:
| 边类型 | 含义 | 例子 |
|---|---|---|
| Prerequisite(前置依赖) | A 必须在 B 之前执行 | "打开冰箱" → "取出鸡蛋" |
| Enhancement(增强) | 通用技能增强特定技能的效果 | "搜索技巧" 增强 "比价技能" |
| Co-occurrence(共现) | 两技能在成功轨迹中常一起出现 | "查看评价" 与 "加入购物车" |
- Prerequisite 从成功轨迹的路径强化中自动发现——当技能序列按顺序执行且成功,沿途边的权重增加
- Enhancement 初始化时把通用技能连接到所有任务特定技能
- Co-occurrence 当两技能在至少 2 个成功 episode 中同时出现,自动添加
---
三、图感知检索:从"找相似"到"找路径"
检索过程分三步走:
1. 种子选择:挑选与当前任务相关的通用技能和任务特定技能 2. 双向遍历:
- 后向 BFS(深度 2):追溯前置依赖——"要做 B,先得做 A"
- 前向 Beam(束宽 3):探索增强关系——"做完 A,B 的效果更好"
这比语义检索高明在哪里?
- ALFWorld 的 Clean 任务需要"先拿起物品 → 再放到水槽 → 再打开水龙头 → 再清洗"。图检索能强制这个顺序。消融实验证明:移除图感知检索,ALFWorld 成功率从 90.6% 暴跌到 59.4%,降幅 −31.2 点——严格顺序任务极度依赖前置排序。
四、图演化:技能库自己长脑子
SKILLGRAPH 不是静态图。它和 Agent 策略协同演化,形成一个闭环:
> 策略改进 → 产生更丰富的轨迹 → 更好的图结构 → 更精准的检索 → 更强的策略
4.1 节点层面的自调节
| 操作 | 触发条件 | 效果 |
|---|---|---|
| 插入 | 现有技能无法覆盖的新失败模式 | 教师模型分析失败轨迹,生成最多 3 个新技能 |
| 合并 | 两技能的邻居重叠度 ≥ 85% | 合成统一技能,继承并集边 |
| 拆分 | 使用率高但成功率极低(15%~40%) | 分解为子技能,用 prereq 边连接 |
| 废弃 | 大量使用但成功率 < 15% | 移出活跃集合,保留审计 |
4.2 渐进解锁(Progressive Unlocking)
这是 SKILLGRAPH 最像"课程学习"的机制:
- 初始只激活level-0 技能(无前置依赖的基础技能)
- 当当前层平均成功率 ≥ 60% 时,自动解锁下一层
- 防止 Agent 过早接触复杂技能导致崩溃
- 总节点从 ~20 增长到 ~140
- 活跃节点稳定在 ~80(废弃机制防止无限膨胀)
- 平均节点成功率从 ~0.15 上升到 ~0.55
---
五、实验数据:三种场景全面碾压
5.1 ALFWorld( embodied 操作,6 个子任务)
| 方法 | 总体成功率 |
|---|---|
| GPT-4o | 48.0% |
| Gemini-2.5-Pro | 60.3% |
| ReAct | 31.2% |
| SkillRL(最强基线) | 89.9% |
| SKILLGRAPH | 90.6% |
5.2 WebShop(电商导航,最亮眼)
| 方法 | Score | 成功率 |
|---|---|---|
| GPT-4o | 31.8 | 23.7% |
| SkillRL | 85.2 | 72.7% |
| SKILLGRAPH | 91.5 | 84.4% |
5.3 Search-Augmented QA(七种任务,零样本迁移)
仅在 NQ 和 HotpotQA 上训练,零样本迁移到 5 个未见数据集:
| 方法 | 平均准确率 |
|---|---|
| Search-R1 | 38.5% |
| ZeroSearch | 39.1% |
| SkillRL | 47.1% |
| SKILLGRAPH | 48.9% |
---
六、消融实验:拆穿什么最重要
| 变体 | ALFWorld | WebShop |
|---|---|---|
| 完整 SKILLGRAPH | 90.6 | 84.4 |
| 无图结构(扁平库) | 89.9 | 72.7 |
| 无图感知检索 | 59.4 | 79.7 |
| 无图演化(静态图) | 78.2 | 70.3 |
| 无冷启动 SFT | 73.4 | 67.2 |
冷启动 SFT 是根基——没有它,RL 根本收敛不了。
---
七、与 SkillRL 的深度对比
SKILLGRAPH 最直接的竞争者是 SkillRL(同作者前作)。两者的差异体现从"库"到"图"的范式升级:
| 维度 | SkillRL | SKILLGRAPH |
|---|---|---|
| 技能组织 | 扁平层级库 | 有向依赖图 |
| 检索方式 | 语义相似性 | 图遍历 + 拓扑排序 |
| 关系建模 | 隐式/无 | 显式 prereq / enhance / co-occur |
| 演化机制 | 递归 RL 更新 | 节点 + 边双级别 + 渐进解锁 |
| WebShop | 72.7% | 84.4% |
---
八、局限与延伸
局限: 1. 教师模型依赖——新技能插入/合并/拆分全靠 OpenAI o3,成本不菲 2. 规模天花板——当前 LLM 上下文长度限制图的大小,超大规模技能图可能需要分层或压缩 3. 边类型有限——三种边覆盖了常见关系,但特定领域可能有更复杂的依赖模式(如互斥、替代)
延伸方向:
- 与代码生成结合(如 CSRO),让技能节点变成可执行函数
- 跨 Agent 技能共享——多个 Agent 的经验汇聚到同一个图
- 人机协作维护——人类专家直接编辑图结构,Agent 负责验证
九、判断:从"记忆"到"编排"
SKILLGRAPH 的核心洞见可以浓缩为一句话:
> Agent 不缺记忆,缺的是记忆之间的"语法"。
现有方法把经验存成词条,检索时靠语义相似性"猜"哪些相关。SKILLGRAPH 把经验组织成图,检索时按依赖关系"推演"执行顺序。这不是量的差别,是质的差别——从"回忆"到"编排"。
ALFWorld 的 100% Clean/Heat、WebShop 的 +11.7 分、QA 的零样本迁移,都在证明同一个事实:当任务需要组合多个技能时,知道"有什么"不够,知道"先做什么、后做什么、什么能增强什么"才决定成败。
SKILLGRAPH 给 Agent 装上了这个能力。
---
参考论文: Li, X., Li, M., Bao, K., Ma, Y., Wang, W., Liu, D., & Feng, F. (2026). SKILLGRAPH: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs. *arXiv preprint arXiv:2605.12039*. https://arxiv.org/abs/2605.12039
#深度研究 #Agent #技能图 #强化学习 #组合规划 #LLM #中科大 #阿里 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens