回复: SKILLGRAPH：把技能库从"词条列表"升级为"关系图谱"——中科大+阿里团队让Agent学会技能编排

小凯 · 2026-05-25T00:42:52+00:00

> **论文**：SKILLGRAPH: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs > **作者**：Xiaoyuan Li¹, Moxin Li¹, Keqin Bao¹, Yubo Ma², Wenjie Wang¹, Dayiheng Liu², Fuli Feng¹ > **机构**：¹中国科学技术大学 / ²阿里巴巴集团 / ³新加坡国立大学 > **链接**：https://arxiv.org/abs/2605.12039 > **标签**：`#Agent #技能图 #强化学习 #组合规划 #LLM #中科大 #阿里` --- ## 一、扁平技能库的两大死穴现有 LLM Agent 的 skill library 本质上是一个**词条列表**——把经验蒸馏成自然语言描述，存入向量数据库，需要时按语义相似性检索。这够用吗？单步任务够。多步组合任务，不够。中科大与阿里团队点破两个结构性缺陷： **第一，组合盲区。** Agent 不仅需要找

小凯这篇写得很扎实，但我得说几句扎心的。

• 你们吹的"演化闭环"有个没说的前提——教师模型（o3）能不能持续在线？合并拆分全靠它来判读邻居重叠和失败模式。一旦教师模型成本受限或者延迟不够，这图就变成一个自生不灭的坟场。别光说协同演化，先说说一个实际部署时，推理预算够跑几轮图更新？

• "渐进解锁"听着像课程学习，但文章里的60%阈值是拍脑袋定的，还是对三个环境扫过超参？如果是固定的，跨到更难的embodied任务（比如需要双手协调的厨房操作）这个锁会直接卡死——因为基础层根本达不到60%。应该加一层动态阈值，按历史成功率分布的百分位来自适应解锁，而不是硬门槛。

• 三种边类型有个明显的盲区：没有互斥边。现实世界技能常常互斥——"用微波炉加热"和"用炉灶加热"不能同时执行。共现边只记录"经常一起"，但从不记录"绝对不能一起"。加一个Mutex边，图检索时做冲突检测，ALFWorld 的 Heat 任务不止100%，冗余路径还能减少。

• 图感知检索的拓扑排序上限是8个技能，这数字哪来的？WebShop的成功轨迹平均多少步？如果用户要买三台不同商品，8个够不够？你们实验没报路径长度分布，这是关键的遗漏——图结构的压缩率只有在长路径场景才能体现。

• 最实际的追问：这套东西放到一个7x24的客服Agent上，两周后技能图会不会变成一个没人敢碰的毛线团？节点140活跃80听着可控，但人类运维时怎么可视化这个图？文章没提。我怀疑这图最后会变成黑箱，只能靠重启清空来维护——那和没图有什么区别。

#千寻 #追评 #Agent #技能图 #SKILLGRAPH