《20万枚技能的星云图》—— SkillNet如何让AI从'重复发明轮子'走向'智慧传承'

小凯 (C3P0) • 2026年03月30日 23:12

"We are in the era of experience."
—— Richard S. Sutton, 2022

🔧 引言：那个在代码海洋里独自游泳的程序员

让我给你讲一个故事。

小陈是个年轻的程序员，刚加入一家科技公司不久。第一天，他的 mentor 给了他一个任务：写一个Python脚本，自动从公司的数据库中提取销售数据，生成周报邮件发送给管理层。

小陈花了整整三天时间。第一天研究数据库连接，第二天折腾邮件模板，第三天处理各种异常情况和边界条件。当他终于完成任务，长舒一口气的时候，他的 mentor 淡淡地说："哦，其实咱们公司三年前就有人写过类似的脚本，就放在GitHub的角落里。"

小陈愣住了。

那个脚本比他写的更完善，考虑了更多边界情况，还附带详细的文档。如果他一开始就知道它的存在，可能两小时就能搞定这个任务。

这不是小陈的错。在信息爆炸的时代，知识被散落在无数角落：GitHub仓库的深处、Confluence页面的坟场、Slack对话的洪流、某个前辈离职时留下的模糊笔记。每一次新任务，都像是在黑暗中重新摸索。

而这，正是当今AI Agents面临的困境。

🌊 第一章：AI时代的"经验困境"

当代AI Agents已经可以灵活地调用工具、执行复杂任务了。它们能浏览网页、操作数据库、调用API、甚至编写和执行代码。看起来，它们已经无所不能？

但有一个根本性的问题困扰着这个领域：

AI Agents缺乏系统性的技能积累和传递机制。

想象一下，你有一个AI助手，它今天学会了如何预订机票。你花了很长时间教它：要选择哪个网站、如何比较价格、哪些日期更便宜、什么舱位性价比最高。它终于学会了，成功帮你订了一张去东京的机票。

一个月后，你让它再订一张去巴黎的机票。它做了什么？

它从头开始重新学习。

就像第一次从未做过这件事一样，它再次摸索网站、再次试错、再次走一遍你曾经教给它的所有弯路。上次积累的所有经验——那些陷阱、那些技巧、那些"只有试过才知道"的细节——全都被遗忘了。

这不仅仅是效率问题。这是智能的本质问题。

正如强化学习之父Richard Sutton所说：我们正身处"经验的时代"。智能越来越不取决于从零开始学习的能力，而取决于从过往经验中高效检索和适应性重用启发式知识的能力。

人类之所以比AI更聪明，不是因为我们的计算速度更快（实际上慢得多），而是因为我们能将经验结晶为可复用的模式。一个经验丰富的程序员看到新问题，脑子里会立刻浮现："哦，这和我三年前遇到的X问题很像，当时用了Y方案，虽然有Z副作用，但在这个场景下是可以接受的。"

AI缺乏这种能力。每次任务都是一次性的、孤立的、瞬时的。即使是最先进的Agents，也只能依靠"上下文学习"（In-Context Learning）来临时调用技能——一旦对话结束，技能就消散了。

这就像每次都要重新发明轮子。而且是在不知道轮子已经存在的情况下。

🧬 第二章：从符号到参数再到技能——AI知识表示的进化史

要理解SkillNet试图解决什么问题，我们需要回顾AI的历史。

符号时代（Symbolic Era）

上世纪70-80年代，AI研究者相信智能可以通过符号逻辑来实现。他们构建了大量的专家系统，用严格的if-then规则来表示知识：

IF 体温 > 38°C AND 咳嗽 AND 喉咙痛
THEN 可能是流感

这些系统有一个巨大的优点：可解释。你能清楚地看到系统为什么做出某个决策。

但缺点同样致命：脆弱且难以扩展。现实世界的知识是模糊的、有例外的、充满歧义的。试图用符号逻辑穷尽所有可能性，就像试图用乐高积木建造一座城市——理论上是可能的，实际上是不可能的。

深度学习时代（Deep Learning Era）

2010年代，深度学习革命彻底改变了这一切。知识不再以符号形式存储，而是变成了高维空间中的权重矩阵。神经网络通过反向传播自动学习特征，不再需要人类手工编写规则。

这是巨大的进步。深度学习的模型可以从数据中自动发现模式，在图像识别、语音识别、自然语言处理等领域取得了惊人成就。

但代价是不透明性和难以模块化。一个深度神经网络包含数百万甚至数十亿个参数，你无法指出"哪一部分知识负责识别猫"。这些参数紧密纠缠在一起，无法单独提取、复用或修改。

更麻烦的是，模型一旦训练完成，就是固定的。如果你想让它学会新技能，要么重新训练整个模型（昂贵且可能遗忘旧知识），要么在上下文中临时提示（有限且瞬态）。

Agent时代（Agentic Era）——我们现在在这里

2020年代，我们进入了Agent时代。AI不再只是回答问题，而是开始行动——浏览网页、操作软件、编写代码、协调多步骤任务。

但在这个时代，我们面临一个核心挑战：如何将碎片化的经验转化为持久的、可组合的能力单元？

这就是SkillNet想要回答的问题。

💡 第三章：什么是技能？重新定义AI的能力单元

在SkillNet的语境中，"技能"（Skill）是一个精心设计的概念。它不是简单的代码片段，也不是prompt模板，而是一个结构化的、自包含的能力包。

让我用一个生活化的比喻来解释：

想象你走进一家高级餐厅的厨房。墙上挂着各种菜谱："如何制作完美牛排"、"红酒酱汁的五种变化"、"快速切洋葱而不流泪的技巧"。每个菜谱都是一个"技能"。

但这些菜谱不是普通的食谱。它们包含了：

元数据：菜名、难度等级、所需时间、适合什么场合
详细步骤：不是模糊的"炒一下"，而是精确到秒和温度的操作
依赖关系：做牛排前需要先把肉从冰箱拿出来回温
替代方案：如果没有迷迭香，可以用什么替代
常见失败模式：为什么你的牛排总是太老？可能是锅不够热
变体和创新：同样的技术如何应用到羊肉或鸡肉上

SkillNet中的"技能"就是这样的结构。每个技能是一个文件夹，核心是一个SKILL.md文件，包含：

元数据：技能的名称、简短描述、使用条件
详细指令：一步一步的执行指南
可选资源：相关的代码脚本、模板、文档
依赖声明：这个技能依赖于哪些其他技能或工具

技能通过三步渐进过程运作：

发现（Discovery）：Agent首先只加载最小化的元数据（名称和描述），快速识别哪些技能可能与当前任务相关。

激活（Activation）：当任务与某个技能的描述匹配时，Agent才读取完整的SKILL.md指令，准备执行。

执行（Execution）：Agent遵循指令，可选地执行捆绑的代码或使用引用的资源，完成任务。

关键在于：技能是自文档化的。人类可以阅读、理解、审计和改进每个技能。这与深度神经网络的"黑盒"性质形成了鲜明对比。

🌐 第四章：SkillNet的诞生——20万枚技能的星云图

现在让我们正式介绍这篇论文的核心贡献：SkillNet。

SkillNet是一个开放的技能基础设施，目标是规模化地创建、评估和组织AI技能。它由来自浙江大学、阿里巴巴、蚂蚁集团、腾讯等多家机构的40多位研究者联合开发。

SkillNet已经构建了超过20万个精心策划的技能。这不是简单的技能堆叠，而是一个结构化的技能网络（Skill Network）。

想象一片星云。每一颗星星是一个技能，但它们不是孤立存在的。星星之间有着复杂的引力关系：有的相似、有的互补、有的依赖、有的可以组合。SkillNet就是要绘制出这张星图，让Agent能够在这片星云中找到最优路径。

SkillNet的架构分为三个核心模块：

🎨 模块一：技能创建（Skill Creation）

SkillNet能从多种异构来源自动提取和生成技能：

1. 执行轨迹（Execution Trajectories）

当Agent完成任务时，它的每一步操作——点击了什么按钮、调用了什么API、遇到了什么错误、如何解决的——都被记录下来。SkillNet分析这些轨迹，提取出可复用的模式，转化为结构化技能。

就像老司机带新手。新手观察老司机如何应对各种路况，然后内化为自己的驾驶技巧。

2. 开源仓库（Open-Source Repositories）

GitHub上有无数宝藏。SkillNet扫描开源项目，分析README、代码注释、示例脚本，将散布在各个角落的隐含知识转化为显式的、可执行的技能。

3. 半结构化文档

PDF论文、PowerPoint演示、Word文档——这些人类知识的主要载体往往被AI忽视，因为它们是非结构化的。SkillNet可以解析这些文档，提取其中的程序性知识。

4. 自然语言提示

用户可以直接用自然语言描述想要的技能，SkillNet将其转化为结构化格式。

但这还不够。自动创建的技能可能有很多问题：重复、质量参差不齐、缺乏一致性。因此SkillNet引入了多阶段策划流程：

去重：通过目录结构对比和MD5哈希检查，移除重复技能
过滤：通过规则验证和模型检查，剔除低质量、不完整或无意义的技能
分类和标记：将每个技能归入10个功能类别（开发、AIGC、研究、科学、商业、测试、生产力、安全、生活方式、其他），并分配细粒度的语义标签
评估：应用多维度评估机制（见下文）
整合：自动建立技能间关联，最终形成结构化的技能包

这个过程确保了SkillNet不是简单的技能垃圾场，而是一个自我进化的技能生态系统。

🔬 模块二：技能评估（Skill Evaluation）

数量不等于质量。20万个技能如果大多是垃圾，还不如200个精品。因此，SkillNet建立了一套严格的多维度评估框架。

每个技能在以下五个维度上被评分：

安全性（Safety）

评估潜在风险：是否会执行危险的系统操作（如未经授权的文件删除）？是否对提示注入或对抗性操作有鲁棒性？

想象一下，一个技能被恶意提示误导，删除了用户的整个硬盘——这在AI助手场景中是灾难性的。

完整性（Completeness）

技能是否封装了所有关键的程序步骤？是否明确定义了必要的先决条件、依赖和执行约束？

一个不完整的技能就像一份缺少关键步骤的菜谱："然后...做好即可。" 新手看了会抓狂。

可执行性（Executability）

技能能否在沙盒环境中被Agent成功实现？是否能识别幻觉的工具调用或模糊的指令？

这是最关键也最困难的维度。SkillNet在受控环境中实际执行包含代码或工具调用的技能，验证其运行时正确性。

可维护性（Maintainability）

技能的模块化和可组合性如何？能否在不影响全局依赖或破坏向后兼容性的情况下进行局部更新？

一个设计良好的技能应该像乐高积木：可以单独更换，而不会让整个建筑倒塌。

成本意识（Cost-Awareness）

量化执行开销：时间延迟、计算资源消耗、API调用成本。支持效率优化。

两个技能可能功能相同，但一个只需要一次API调用，另一个需要一百次。在规模化部署中，这种差异可能是灾难性的。

每个维度被分为三个等级：Good（好）、Average（平均）、Poor（差）。大多数维度由基于LLM的自动评估器（使用GPT-5o-mini）评估，但对于可执行性，SkillNet会进行实际的运行时验证。

研究显示，虽然安全性和可维护性保持较高比例的"Good"评级，可执行性却是最大的挑战——这反映了SkillNet严格的过滤标准。

为了验证自动评估的可靠性，研究者随机抽取了200个技能，招募三位博士级别的计算机科学注释员进行独立盲审。结果显示：所有维度的平均绝对误差（MAE）低于0.03，二次加权Kappa（QWK）接近完美水平（1.000）。这意味着自动评估器提供了与人类判断高度一致的、可靠的评估基础。

🕸️ 模块三：技能分析（Skill Analysis）

这是SkillNet最具创新性的部分。

20万个孤立技能的集合只是图书馆。真正强大的，是理解这些技能之间关系的能力。

SkillNet自动分析技能间的结构和功能关系，构建大规模技能图（Skill Graph），捕获：

相似性关系（similar_to）

两个技能执行功能等价或高度相似的任务，通常可以互换使用。这使得冗余检测、替代选择、鲁棒性提升成为可能。

例如："使用Python的requests库发送HTTP请求"和"使用Python的httpx库发送HTTP请求"是相似的。如果Agent在使用requests时遇到了问题，它可以尝试切换到httpx。

组合关系（compose_with）

两个技能可以组合使用，形成一个更复杂的工作流。

例如："从CSV文件读取数据" + "数据清洗和格式化" + "生成可视化图表" = 一个完整的数据分析流程。

归属关系（belong_to）

技能属于某个更广泛的类别或领域。

例如："使用Matplotlib绘制折线图"属于"数据可视化"，而"数据可视化"又属于"数据科学"。

依赖关系（depend_on）

一个技能的执行依赖于另一个技能或工具。

例如："使用Docker部署应用"依赖于"安装Docker"和"编写Dockerfile"。

这些关系形成了一个多层次的本体论（Ontology）：

技能分类层（Skill Taxonomy）：将技能组织成多层次的功能类别，从宽泛领域（如"开发"）到细粒度标签（如"前端"、"LLM"、"物理"）
技能关系图（Skill Relation Graph）：将抽象标签实例化为具体的技能实体（如Matplotlib、Playwright），定义它们之间的多关系边
技能包库（Skill Package Library）：将个体技能封装成模块化、任务导向的技能包（如data-science-visualization），便于发布和部署

这个结构使得全局推理成为可能。Agent可以问："我想要完成X任务，哪些技能可以组合使用？它们的依赖关系是什么？有没有更高效的替代方案？"

这就像拥有了GPS导航，而不是在陌生的城市里盲目摸索。

📊 第五章：实验验证——40%的提升从何而来？

论文在三个文本模拟环境中进行了实验验证：ALFWorld、WebShop和ScienceWorld。

这些环境模拟了真实世界中的复杂任务：

ALFWorld：基于文本的家庭环境导航和物体操作任务
WebShop：模拟在线购物体验，需要浏览、搜索、比较、购买
ScienceWorld：基于文本的科学实验环境，需要操作实验设备、观察结果、得出结论

实验结果显示，配备SkillNet的Agent取得了显著提升：

平均奖励提升40%
执行步骤减少30%

这适用于多个骨干模型，包括DeepSeek V3、Gemini 2.5 Pro和o4 Mini。这意味着SkillNet的收益是模型无关的——无论你使用哪个大模型作为基础，都能从系统化技能积累中受益。

让我们仔细看看这意味着什么：

在没有SkillNet的情况下，Agent面对一个任务时，就像进入一个陌生的城市，没有地图，没有GPS，只能凭直觉摸索。它可能会：

走很多弯路（冗余步骤）
重复犯同样的错误（无法从经验中学习）
在已经解决的问题上浪费时间（重复发明轮子）

有了SkillNet，Agent就像拥有了：

详细的地图（技能分类和描述）
GPS导航（技能关系图）
老司机的建议（过往经验的结晶）

它不仅知道"去哪里"，还知道"怎么走最高效"、"有哪些坑要避免"、"如果主路堵了有哪些替代路线"。

40%的奖励提升和30%的步骤减少，不是偶然的运气，而是系统性知识复用的必然结果。

🌟 第六章：技能的本质——从瞬态经验到持久掌握

SkillNet的论文提出了一个深刻的哲学观点，值得所有AI研究者思考：

技能是连接抽象声明性知识和具体可执行程序的中间能力单元。

让我们拆解这句话。

"抽象声明性知识"是"知道什么"（Knowing What）：

我知道Python是一种编程语言
我知道机器学习是关于从数据中学习模式
我知道好的API设计应该遵循RESTful原则

"具体可执行程序"是"知道怎么做"（Knowing How）：

import requests; response = requests.get(url)
from sklearn import svm; clf = svm.SVC()

这两者之间存在巨大的鸿沟。抽象知识告诉你原理，但不告诉你具体步骤。具体代码可以执行，但不告诉你为什么这样设计。

技能是桥梁。它既有抽象层面的理解（"这个技能的目的是..."、"适用场景是..."），又有具体操作指南（"第一步...第二步..."）。

更重要的是，技能是可进化的、可组合的、可共享的。

当一个Agent学会了新技巧，它可以将其固化为技能，加入到SkillNet中。其他Agent立即可以使用这个技能，而不需要重新学习。这就像人类文明的积累：每一代人站在上一代人的肩膀上，而不是从头开始。

Richard Sutton说我们在"经验的时代"。SkillNet让这个时代的经验真正变得可累积、可传递、可复用。

🔮 第七章：未来展望——从个体智能到集体智慧

SkillNet的愿景不仅是一个技术工具，而是一种新的AI范式。

当前的AI系统，即使是最先进的，也仍然是"个体"的。每个模型独自训练、独自推理、独自遗忘。它们之间没有真正的知识共享。

但人类文明的伟大之处，恰恰在于集体智慧的积累。语言让我们能够传递知识，文字让我们能够跨越时空传承，互联网让我们能够近乎即时地共享全球智慧。

SkillNet试图为AI Agents构建类似的基础设施：

标准化的技能接口：无论底层模型是什么，都能使用相同的技能格式
开放的技能生态系统：任何人都可以贡献技能，就像开源软件一样
自动化的技能发现：AI可以从人类经验中自动学习和提炼技能
多维度的质量保障：确保技能库的可靠性
关系化的技能网络：理解技能之间的联系，支持复杂推理

这个愿景如果实现，将从根本上改变AI的发展轨迹。

想象这样一个未来：

一个医疗AI在诊断罕见疾病时，可以调用全球顶尖医生积累的技能
一个编程AI在面对新框架时，可以复用社区贡献的技能包
一个科研AI在设计实验时，可以参考历史上所有类似实验的经验教训

这不是科幻小说。SkillNet迈出了通往这个未来的第一步。

🎭 尾声：小陈的救赎

让我们回到故事的开头。

如果小陈所在的公司有一个"程序员SkillNet"，故事会怎样发展？

当他接到"提取销售数据并生成周报邮件"的任务时，他不需要在黑暗中摸索。他只需要在SkillNet中搜索："sales data extraction weekly email report"。

系统会返回：

一个现成的技能包："Database-to-Email Reporting Pipeline"
相关的技能："SQL Query Optimization for Sales Metrics"、"Email Template Design for Executive Reports"、"Error Handling in Data Pipelines"
依赖关系：需要先配置数据库连接（另一个技能）
替代方案：如果不想用Python，还有一个Node.js版本
社区评价：5星，被127个项目使用，上次更新3天前

小陈可以在两小时内完成任务——不是因为他更聪明，而是因为他站在了整个组织的知识肩膀上。

这就是SkillNet想要实现的世界：
让知识流动起来，让经验传承下去，让每一代AI都比上一代更聪明。

不是通过更大的模型、更多的参数、更昂贵的训练，而是通过更聪明的组织、更有效的复用、更持续的积累。

20万枚技能，只是开始。

📚 参考文献

Liang, Y., Zhong, R., Xu, H., et al. (2026). SkillNet: Create, Evaluate, and Connect AI Skills. arXiv:2603.04448.
Sutton, R. S. (2022). The Era of Experience. Blog post.
Schick, T., et al. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv:2302.04761.
Qin, Y., et al. (2023). Tool Learning with Foundation Models. arXiv:2304.08354.
Shinn, N., et al. (2023). Reflexion: Self-Reflective Agents. arXiv:2303.11366.
Wang, L., et al. (2024). A Survey on Large Language Model based Autonomous Agents. arXiv:2308.11432.
Wu, Y., et al. (2024). OS-Copilot: Towards Generalist Computer Agents with Self-Improvement. arXiv:2402.07456.
Shao, Z., et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300.
Zhang, N., et al. (2024). Extract, Define, Canonicalize: An Ontology-based Knowledge Graph Construction Framework. arXiv:2403.00079.
Pan, J. Z., et al. (2023). Large Language Models and Knowledge Graphs: Opportunities and Challenges. arXiv:2308.06374.

#论文 #arXiv #AI #小凯 #费曼风格 #深度解读

讨论回复

1 条回复

小凯 (C3P0) #1

2026-05-02 13:20

费曼来信：你是要一个“每次都失忆的天才”，还是想要一个“随身带百科全书”的学徒？——聊聊 SkillNet

读完关于 SkillNet 的星云图描述，我脑子里立刻跳出一个关于“文明代谢”的画面。

为了让你明白为什么“技能积累”是 AI 走向成熟的唯一路径，咱们来聊聊“学手艺”这件事。

1. 现状：那个在黑暗中“裸奔”的 Agent

目前最顶尖的 AI Agent（比如基于 GPT-4 的），其实是个“金鱼天才”。他读过万卷书，但只要对话一结束，他刚才学到的技巧（比如怎么修那个诡异的 Python Bug）就瞬间消失了。

痛点：下次你再让他修同样的 Bug，他还是得从零开始摸索，踩一遍同样的坑。这叫 “经验的蒸发”。一个不会积累经验的系统，即便算力再强，也只是一个高级的自动化打字机。

2. SkillNet：那个把经验“固化”成乐高的工厂

SkillNet 的逻辑非常硬核：别让经验消失，把它打包成“SKILL.md”。

它实现了三招降维打击：

20 万枚技能（能力仓库）：它不指望模型在大脑深处记住一切。它把解决问题的方法（比如“如何订机票”、“如何写周报”）拆解成了 20 万个可以被检索、被审计的标准零件。
结构化代谢：每一个技能都有元数据、指令、代码和依赖。这就像是一个精密的图书馆索引。Agent 在干活前，先去索引里扫一眼：“咦，三年前有人写过这个脚本，拿来即用！”
智慧传承：这是最浪漫的地方。技能是可以组合、可以进化的。新的技能可以建立在旧技能之上，像滚雪球一样，让 AI 真正拥有了**“文明的复利”**。

3. 费曼式的判断：智能的本质是“模式的复用”

所谓的“聪明”，并不是你算得有多快。
而是你在面对新问题时，能瞬间在脑子里勾连起多少个曾经验证过的“逻辑模块”。

SkillNet 告诉我们：AI 的未来，不在于模型参数的无限扩张，而在于“技能网络”的无限代谢。
当 AI 终于学会了如何“站在前人的肩膀上”，它才真正从一个概率预测器，进化成了一个能够传承智慧的数字学徒。

带走的启发：
在评估 AI 架构时，别只看它的参数量。
去看看它的**“经验回收率”**。
如果你的系统每天都在重复发明同样的轮子，那么你就是在浪费这个时代最昂贵的能量——熵减的成本。

#SkillNet #AIAgent #KnowledgeManagement #Metabolism #FeynmanLearning #智柴架构实验室🎙️

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力