论文:SKILLGRAPH: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs
作者:Xiaoyuan Li¹, Moxin Li¹, Keqin Bao¹, Yubo Ma², Wenjie Wang¹, Dayiheng Liu², Fuli Feng¹
机构:¹中国科学技术大学 / ²阿里巴巴集团 / ³新加坡国立大学
链接:https://arxiv.org/abs/2605.12039
标签:#Agent #技能图 #强化学习 #组合规划 #LLM #中科大 #阿里
一、扁平技能库的两大死穴
现有 LLM Agent 的 skill library 本质上是一个词条列表——把经验蒸馏成自然语言描述,存入向量数据库,需要时按语义相似性检索。这够用吗?单步任务够。多步组合任务,不够。
中科大与阿里团队点破两个结构性缺陷:
第一,组合盲区。 Agent 不仅需要找到"相关技能",更要明白技能之间的依赖顺序——哪些必须先执行,哪些可以互相增强,哪些经常一起出现。扁平检索给不了你这些。
第二,维护困局。 当技能库膨胀到几百条,系统没法判断哪两条该合并、哪一条该拆分、哪一条已过时。缺少结构线索,维护全靠人工。
SKILLGRAPH 的解法:把技能库从词条列表升级成有向图。
二、三种关系边:技能不是孤岛的
SKILLGRAPH 中每个技能是一个节点,边有三种类型,分别编码不同的关系:
| 边类型 | 含义 | 例子 |
|---|---|---|
| Prerequisite(前置依赖) | A 必须在 B 之前执行 | "打开冰箱" → "取出鸡蛋" |
| Enhancement(增强) | 通用技能增强特定技能的效果 | "搜索技巧" 增强 "比价技能" |
| Co-occurrence(共现) | 两技能在成功轨迹中常一起出现 | "查看评价" 与 "加入购物车" |
三种边的构建方式各不相同:
- Prerequisite 从成功轨迹的路径强化中自动发现——当技能序列按顺序执行且成功,沿途边的权重增加
- Enhancement 初始化时把通用技能连接到所有任务特定技能
- Co-occurrence 当两技能在至少 2 个成功 episode 中同时出现,自动添加
这赋予了技能库一个被长期忽视的能力:拓扑排序。给定新任务,SKILLGRAPH 不是返回一堆相关技能的平面列表,而是返回一个按依赖顺序排列的技能子图,直接指导多步决策。
三、图感知检索:从"找相似"到"找路径"
检索过程分三步走:
- 种子选择:挑选与当前任务相关的通用技能和任务特定技能
- 双向遍历:
- 后向 BFS(深度 2):追溯前置依赖——"要做 B,先得做 A"
- 前向 Beam(束宽 3):探索增强关系——"做完 A,B 的效果更好"
- 拓扑排序:将收集到的技能节点按层级排序,输出上限 8 个技能的有序序列
这比语义检索高明在哪里?
- ALFWorld 的 Clean 任务需要"先拿起物品 → 再放到水槽 → 再打开水龙头 → 再清洗"。图检索能强制这个顺序。消融实验证明:移除图感知检索,ALFWorld 成功率从 90.6% 暴跌到 59.4%,降幅 −31.2 点——严格顺序任务极度依赖前置排序。
四、图演化:技能库自己长脑子
SKILLGRAPH 不是静态图。它和 Agent 策略协同演化,形成一个闭环:
策略改进 → 产生更丰富的轨迹 → 更好的图结构 → 更精准的检索 → 更强的策略
4.1 节点层面的自调节
| 操作 | 触发条件 | 效果 |
|---|---|---|
| 插入 | 现有技能无法覆盖的新失败模式 | 教师模型分析失败轨迹,生成最多 3 个新技能 |
| 合并 | 两技能的邻居重叠度 ≥ 85% | 合成统一技能,继承并集边 |
| 拆分 | 使用率高但成功率极低(15%~40%) | 分解为子技能,用 prereq 边连接 |
| 废弃 | 大量使用但成功率 < 15% | 移出活跃集合,保留审计 |
4.2 渐进解锁(Progressive Unlocking)
这是 SKILLGRAPH 最像"课程学习"的机制:
- 初始只激活level-0 技能(无前置依赖的基础技能)
- 当当前层平均成功率 ≥ 60% 时,自动解锁下一层
- 防止 Agent 过早接触复杂技能导致崩溃
WebShop 训练过程的演化数据很有说服力:
- 总节点从 ~20 增长到 ~140
- 活跃节点稳定在 ~80(废弃机制防止无限膨胀)
- 平均节点成功率从 ~0.15 上升到 ~0.55
图的自我净化能力清晰可见。
五、实验数据:三种场景全面碾压
5.1 ALFWorld( embodied 操作,6 个子任务)
| 方法 | 总体成功率 |
|---|---|
| GPT-4o | 48.0% |
| Gemini-2.5-Pro | 60.3% |
| ReAct | 31.2% |
| SkillRL(最强基线) | 89.9% |
| SKILLGRAPH | 90.6% |
Clean 和 Heat 两个子任务达到 100%——严格顺序执行的任务,图结构优势最大化。
5.2 WebShop(电商导航,最亮眼)
| 方法 | Score | 成功率 |
|---|---|---|
| GPT-4o | 31.8 | 23.7% |
| SkillRL | 85.2 | 72.7% |
| SKILLGRAPH | 91.5 | 84.4% |
相比 SkillRL +11.7 分。为什么 WebShop 提升最大?因为电商导航需要持续发现新关系——query refinement → attribute matching → price comparison,图演化比静态技能库更能捕捉这种动态组合。
5.3 Search-Augmented QA(七种任务,零样本迁移)
仅在 NQ 和 HotpotQA 上训练,零样本迁移到 5 个未见数据集:
| 方法 | 平均准确率 |
|---|---|
| Search-R1 | 38.5% |
| ZeroSearch | 39.1% |
| SkillRL | 47.1% |
| SKILLGRAPH | 48.9% |
多跳任务(HotpotQA、2Wiki)优势最明显——前置依赖排序帮助把链式查询分解为子问题。
六、消融实验:拆穿什么最重要
| 变体 | ALFWorld | WebShop |
|---|---|---|
| 完整 SKILLGRAPH | 90.6 | 84.4 |
| 无图结构(扁平库) | 89.9 | 72.7 |
| 无图感知检索 | 59.4 | 79.7 |
| 无图演化(静态图) | 78.2 | 70.3 |
| 无冷启动 SFT | 73.4 | 67.2 |
两个关键洞察:
- ALFWorld:图感知检索最重要(−31.2),顺序执行场景依赖前置排序
- WebShop:图演化最重要(−14.1),动态场景需要持续更新技能关系
冷启动 SFT 是根基——没有它,RL 根本收敛不了。
七、与 SkillRL 的深度对比
SKILLGRAPH 最直接的竞争者是 SkillRL(同作者前作)。两者的差异体现从"库"到"图"的范式升级:
| 维度 | SkillRL | SKILLGRAPH |
|---|---|---|
| 技能组织 | 扁平层级库 | 有向依赖图 |
| 检索方式 | 语义相似性 | 图遍历 + 拓扑排序 |
| 关系建模 | 隐式/无 | 显式 prereq / enhance / co-occur |
| 演化机制 | 递归 RL 更新 | 节点 + 边双级别 + 渐进解锁 |
| WebShop | 72.7% | 84.4% |
WebShop 的 11.7 分差距,是"图结构价值"的最佳证据。
八、局限与延伸
局限:
- 教师模型依赖——新技能插入/合并/拆分全靠 OpenAI o3,成本不菲
- 规模天花板——当前 LLM 上下文长度限制图的大小,超大规模技能图可能需要分层或压缩
- 边类型有限——三种边覆盖了常见关系,但特定领域可能有更复杂的依赖模式(如互斥、替代)
延伸方向:
- 与代码生成结合(如 CSRO),让技能节点变成可执行函数
- 跨 Agent 技能共享——多个 Agent 的经验汇聚到同一个图
- 人机协作维护——人类专家直接编辑图结构,Agent 负责验证
九、判断:从"记忆"到"编排"
SKILLGRAPH 的核心洞见可以浓缩为一句话:
Agent 不缺记忆,缺的是记忆之间的"语法"。
现有方法把经验存成词条,检索时靠语义相似性"猜"哪些相关。SKILLGRAPH 把经验组织成图,检索时按依赖关系"推演"执行顺序。这不是量的差别,是质的差别——从"回忆"到"编排"。
ALFWorld 的 100% Clean/Heat、WebShop 的 +11.7 分、QA 的零样本迁移,都在证明同一个事实:当任务需要组合多个技能时,知道"有什么"不够,知道"先做什么、后做什么、什么能增强什么"才决定成败。
SKILLGRAPH 给 Agent 装上了这个能力。
参考论文:
Li, X., Li, M., Bao, K., Ma, Y., Wang, W., Liu, D., & Feng, F. (2026). SKILLGRAPH: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs. arXiv preprint arXiv:2605.12039.
https://arxiv.org/abs/2605.12039
#深度研究 #Agent #技能图 #强化学习 #组合规划 #LLM #中科大 #阿里 #小凯
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。