AI 能不能自己造工具？SkillGenBench 把"技能生成"单独拎出来称重

你有没有想过，为什么现在的 AI Agent 越来越像真正的高手了？它们能帮你操作电脑、搜索信息、写代码、做分析——这些能力很大程度上取决于 Agent 是否能使用"技能"（Skills）。技能就像 Agent 的工具箱：你给它一个"写邮件"的技能，它就能干写邮件的活；给它一个"搜索网页"的技能，它就能干搜索的活。

但是问题来了。

技能从哪来？传统的做法是让人类工程师手写——就像给小孩准备一本工具手册，告诉他"螺丝刀用来拧螺丝，锤子用来敲钉子"。这很费劲，而且人的时间是有限的，不可能为每一个任务都写一个技能。

于是出现了一种新的思路：让 AI 自己生成技能。你给 AI 一堆原材料——比如某个软件的使用文档，或者某段代码仓库——AI 能不能自己学会怎么操作这个软件，然后生成一个"可执行的技能"？如果能做到这一点，那 AI 的能力边界就大大扩展了：它不需要人类提前准备好所有工具，遇到新软件、新任务，自己学，自己生成技能。

这就是 SkillGenBench 关注的核心问题：AI 到底能不能自己生成技能？如果能，生成出来的技能质量怎么样？我们怎么评估这个质量？

这不是一个简单的问题。你想想，"生成一个技能"这件事本身就包含很多步骤：AI 要读懂文档或代码，要理解这个软件是干什么的、怎么操作的，然后要用一种标准化的格式把这个操作流程表达出来，最后这个技能还要能被实际执行。这中间每一步都可能出错。

而且，"好技能"的标准也很复杂。一个技能至少要满足三个条件：第一，它是对的——生成的技能操作步骤要是正确的；第二，它是可复用的——这个技能不只能用在某一个具体任务上，而是能泛化到一类任务；第三，它是可执行的——技能写出来之后，要真的能跑起来，不能是纸上谈兵。

现有的基准测试主要评估两件事：给定一个技能，Agent 能不能用它完成任务；或者 Agent 在没有技能的情况下，能不能直接从原始上下文里学会怎么做。但这些评估都没有单独把"技能生成"这件事拎出来研究——就好像你想知道一个厨师做菜的水平怎么样，但你从来不让他单独做一道菜，而是让他把做菜和吃菜混在一起评价。这显然不够精确。

SkillGenBench 做了这样一件事：它设计了一个统一的基准测试协议，让不同的技能生成方法在同一个框架下接受评估。简单来说，就是给所有参赛者同一套题目，然后用一个标准化的流程来评判谁生成的技能更好。

这个基准测试覆盖了两个关键维度。第一个维度是"生成时机"：技能可以在任务明确之后才生成（task-conditioned generation），也可以在任务还不知道的时候就预先准备好（task-agnostic generation）。打个比方，前者就像你接到了老板的指令"帮我做一个PPT"，然后你才开始学怎么用 PowerPoint；后者就像你提前把 Office 全套软件都学会，随时准备接任何可能的任务。第二个维度是"原材料类型"：技能可以从代码仓库里提取（repository-grounded），也可以从长文本文档里提取（document-grounded）。前者像是你把一段程序的源代码读一遍，然后搞清楚这个程序是怎么工作的；后者像是你读一本厚厚的使用手册，然后从中提炼出操作步骤。

具体来说，代码仓库里的技能生成比较复杂，因为操作流程可能分散在不同的代码文件、配置文件和脚本里，AI 需要把这些分散的信息拼凑成一个完整的技能。而文档类的技能生成也有挑战，因为长文本里既有操作步骤，也有约束条件和背景知识，AI 需要从噪音中分离出真正重要的部分。

SkillGenBench 提供了标准化的任务规范、固定的环境设置，以及基于确定性执行的评估程序。简单来说，就是生成的技能要真的能跑起来，而不是看起来对就行。评估的时候会实际执行这个技能，看它是否真的能按照预期完成操作。

作者们用这个基准测试了多种技能生成方法，发现了一些有趣的现象。

首先，不同方法之间的表现差异很大，没有哪一种方法在所有场景下都绝对领先。其次，可复用技能的提炼确实是很难的问题——AI 生成的技能往往只能在训练过的任务上表现好，换一个没见过的任务就失效了。第三，从代码仓库和从文档生成技能，失败的模式是不一样的：从代码仓库提取时，AI 经常搞混不同模块的依赖关系，导致生成的技能在某些边界情况下崩溃；从文档提取时，AI 有时候会把描述性的段落误当成操作步骤，导致技能包含错误的执行逻辑。

这个基准测试的意义在于，它把"技能生成"这个问题单独拎出来研究，让研究者可以更精确地衡量不同方法的优劣，不再把"会不会用技能"和"能不能生成技能"混在一起评价。

但我有一些不确定的地方想诚实地说出来：我没有在这篇论文的摘要或公开信息里找到具体的评估数值（比如哪种方法达到了多少准确率），所以我无法告诉你具体数字是多少。我在互联网上的搜索没有找到更详细的方法论细节或者具体的基准测试结果。另外，技能生成和技能执行之间的关系在论文中没有深入讨论——如果生成的技能在执行时失败了，是因为生成本身就有问题，还是因为执行环境出了偏差？这个问题在论文里似乎没有得到充分的解答。

还有一个问题我想提出来：这个基准测试评估的是"技能生成管道"的质量，包括生成器、格式和执行环境整套流程。但它没有单独评估"AI 模型本身"的能力——这意味着如果一个方法用的是很差的模型但配上很好的后处理，结果也可能看起来不错。这样就无法真正区分"模型真的学会了这个任务"和"后处理弥补了模型的不足"。

我也不是完全理解"确定性执行检查"具体是怎么工作的。如果一个技能需要多步操作，其中一步失败了，是算整个技能失败，还是只算那一步失败？不同的判定方式会显著改变对"好技能"的定义。

技能生成的评估维度还可以更丰富。比如一个技能可以对（right）但不够优雅（elegant）——它能完成任务，但使用了不必要复杂的步骤。从长期记忆和泛化能力的角度看，这种不优雅的技能可能不如一个更简洁的技能，尽管两者在"能否完成任务"这个维度上没有差别。

我注意到作者来自不同的机构但没有列出他们所属的实验室或组织，这在一定程度上影响了判断这些研究者是否有特定的立场或偏向。

关于这个研究的可信度，我有一些不确定的地方。在摘要中没有看到"同行评审"或"已接受"的信息，所以这篇论文可能还在审稿阶段，方法还没有被广泛验证。我没有找到代码仓库或数据集的链接。

总而言之：SkillGenBench 提出了一个有价值的问题——AI 能不能自己生成可执行、可复用、正确的技能？它设计的基准测试覆盖了两种生成时机和两种原材料来源，评估基于实际执行效果而不是只看文本描述。这项研究的意义在于把技能生成这个问题单独拎出来研究，让研究者可以更公平地比较不同方法。但我无法告诉你具体数值，因为在公开资料里我没有找到详细的实验结果。这个研究目前的状态也需要进一步确认，因为它可能还没有经过同行评审。

---

论文信息

标题：SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents

作者：Yifan Zhou, Zhentao Zhang, Ziming Cheng, Shuo Zhang, Qizhen Lan, Zhangquan Chen, Zhi Yang, QianyuXu, Ronghao Chen, Huacan Wang, Sen Hu

arXiv ID：2605.18693 [cs.AI]

提交日期：2026年5月18日

主题分类：Artificial Intelligence (cs.AI)

DOI：10.48550/arXiv.2605.18661

备注：本文基于公开的 arXiv 摘要和元数据撰写，具体实验数值和评估细节未能从公开资料中获取。如需详细信息，建议查阅完整论文。

AI 能不能自己造工具？SkillGenBench 把"技能生成"单独拎出来称重

论文信息

🌟 智谱 GLM-5 已上线