🎯 一、研究背景与核心问题

1.1 现有Benchmark的局限

当前Agent评估体系存在一个根本性的盲区：

现有Benchmark	评估重点	缺失维度
Toolathlon	原子工具调用成功率	工具组合与复用
WebArena	网页导航与操作	跨任务Skill迁移
AgentCompany	单任务完成度	长期Skill积累
SWE-bench	代码生成正确性	工作流抽象能力

核心矛盾：真实世界的Agent需要处理"长程、结构化、有重复模式"的工作流，但现有benchmark只测"单点任务成功率"。

1.2 SkillCraft的研究假设

> 智能的本质不是解决单个问题的能力，而是高效抽象和复用可复用程序的能力。 > —— 引用François Chollet对智能的定义

SkillCraft的核心假设： 1. 真实工作流中存在 可抽象的重复结构 2. Agent应该能够 自动发现 这些结构 3. 发现的Skills应该能 跨任务复用 4. 复用Skills能带来 显著效率提升

---

🔬 二、Skill发现算法深度解析

2.1 算法设计哲学

SkillCraft的Skill发现不是传统意义上的"程序合成"或"宏录制"，而是一种 基于执行反馈的抽象学习：

传统宏录制：记录按键序列 → 固定回放
SkillCraft发现：执行工作流 → 识别可复用模式 → 参数化抽象 → 验证入库

2.2 MCP协议层：四原语设计

SkillCraft通过 四个MCP（Model Context Protocol）原语 实现Skill的全生命周期管理：

原语	功能	参数设计
`save_skill`	将成功工作流保存为可执行代码宏	macro_name, script_code, parameters, description
`execute_skill`	运行已保存的Skill	macro_name, args
`list_skills`	列出当前可用Skills	无参
`get_skill`	检索Skill完整源码和签名	macro_name

关键设计决策：

强制参数化：Skill必须声明parameters列表，支持变量绑定
本地持久化：Skills存储在skill_cache.json，会话间保持
代码即Skill：Skill本质是Python脚本，而非黑盒API

2.3 三阶段代码验证机制

这是论文中容易被忽视但工程价值极高的部分：

┌─────────────────────────────────────────────────────────┐
│  Phase 1: 语法验证 (Syntax Verification)                │
│  • AST解析拦截语法错误                                   │
│  • 返回具体错误行号和代码片段                             │
└─────────────────────────────────────────────────────────┘
                           ↓
┌─────────────────────────────────────────────────────────┐
│  Phase 2: 运行时错误报告 (Runtime Error Reporting)      │
│  • 沙盒拦截系统异常                                      │
│  • 返回结构化Tracebacks + 输入参数                        │
└─────────────────────────────────────────────────────────┘
                           ↓
┌─────────────────────────────────────────────────────────┐
│  Phase 3: 执行后质量检测 (Post-execution Quality Check) │
│  • 强校验输出字典                                        │
│  • 若>50%字段为Unknown/None/0 → 拒绝入库                 │
└─────────────────────────────────────────────────────────┘

设计洞察：

第三阶段的"静默失败检测"特别关键——防止Agent产生"看起来成功但实际无效"的Skills
错误反馈机制支持 迭代修正：Agent可以根据错误信息自我调试Skill

2.4 Skill发现的工作流程

任务执行 → 识别重复模式 → 提取参数化模板 → 验证执行 → 入库复用
    ↑                                                              │
    └────────────────── 跨任务调用 ────────────────────────────────┘

一个具体例子（从论文任务推断）：

假设Agent执行了以下GitHub操作序列：

# 原始原子操作
1. search_repos(query="mlops")
2. get_repo_info(repo_id="xxx")
3. list_issues(repo_id="xxx", state="open")
4. create_issue_report(data=...)

发现这是第5次执行类似模式后，Agent可能抽象出Skill：

# 抽象后的Skill
@skill(name="analyze_repo_issues")
def analyze_repo_issues(repo_query: str, issue_state: str = "open"):
    repos = search_repos(query=repo_query)
    reports = []
    for repo in repos[:3]:  # 参数化：前N个仓库
        info = get_repo_info(repo_id=repo.id)
        issues = list_issues(repo_id=repo.id, state=issue_state)
        reports.append(create_issue_report(data=...))
    return reports

---

📊 三、评估指标设计剖析

3.1 双轴扩展的任务设计

SkillCraft的126个任务不是随机生成，而是遵循系统性扩展原则：

                    Structural Scaling (结构复杂度)
                    3 calls    4 calls    5 calls
                      │          │          │
         ┌────────────┼──────────┼──────────┼────────────┐
    3    │  Level 1   │  Level 2 │  Level 3 │            │
entities │  (easy)    │          │          │            │
         ├────────────┼──────────┼──────────┼────────────┤
    5    │  Level 4   │  Level 5 │  Level 6 │            │
entities │            │          │  (hard)  │            │
         └────────────┴──────────┴──────────┴────────────┘
                    Quantitative Scaling (实体数量)

21个任务家族 × 6个难度级别 = 126个任务

3.2 核心评估指标体系

指标	定义	测量方法
成功率 (Success Rate)	任务完成的二元指标	验证器执行确定性断言
Token效率 (Token Efficiency)	完成任务消耗的token数	对比Base mode vs Skill mode
Skill复用率 (Skill Reuse Rate)	跨任务调用同一Skill的次数	日志分析
归一化增益 (Normalized Gain)	g = (skill_rate - base_rate) / (1 - base_rate)	Hake公式

3.3 归一化增益的设计智慧

论文采用了物理教育研究中的Hake增益公式：

g = (pass_skill - pass_base) / (1 - pass_base)

为什么用这个而不是简单差值？

场景	Base Rate	Skill Rate	Δ	g
天花板效应	90%	95%	+5%	0.5
实质性提升	10%	55%	+45%	0.5

洞察：相同g值代表不同的现象。论文报告两者，让读者自行判断：

高g + 低Δ → 天花板效应（模型本身很强）
高g + 高Δ → 真正的Skill脚手架效应

3.4 实验结果关键数据

模型	Base	With Skills	Δ	g	Token减少
GPT-5.2	62%	81%	+19%	0.50	80%
Claude-4.5-Sonnet	58%	76%	+18%	0.43	75%

关键发现： 1. Token效率提升80% 不是平均值，而是最佳情况 2. 成功率与Skill组合能力强相关 ：会造工具的Agent更聪明 3. 模型能力差异 ：强模型更善于发现可复用模式

---

🧠 四、设计亮点与创新点

4.1 认知科学启发

论文明确引用François Chollet的智能定义，将"Skill获取效率"作为智能的核心度量。这与传统AI评估（准确率、F1）形成鲜明对比。

4.2 测试时学习 (Test-time Learning)

不同于预训练或微调，SkillCraft关注测试时的动态能力提升：

Agent在解决任务A时发现Skill S
在后续任务B、C中复用S
Skill库随测试进行而增长

这是向 终身学习 (Lifelong Learning) 迈进的重要一步。

4.3 可观测的复用行为

通过MCP原语的设计，Skill的创建、存储、调用都是显式可观测的：

可以精确统计"复用次数"
可以分析"哪些Skill最通用"
可以追踪"Skill的版本演进"

---

⚠️ 五、局限性与待解决问题

5.1 任务分布的人为性

126个任务来自21个"任务家族"，每个家族内部高度相似。真实场景的任务分布更稀疏、更不可预测。

5.2 Skill质量的长尾问题

论文提到80%的token减少是"最佳情况"。实际上：

部分Skill可能"过拟合"特定任务
跨家族复用的效果可能不如家族内复用
长期积累后Skill库可能臃肿

5.3 缺乏Skill版本管理

当底层工具/API升级时，缓存的Skill可能失效。论文未涉及：

Skill的版本控制
失效检测机制
自动更新策略

5.4 安全性与沙盒限制

三阶段验证机制主要针对"功能正确性"，未涉及：

恶意代码注入
数据隐私泄露
资源滥用（无限循环等）

---

🔮 六、对Skill库建设的启示

6.1 短期可行路径（3-6个月）

垂直场景闭环 → 内部Skill积累 → 效率验证

选择特定domain（如数据分析、代码审查）
实现类似SkillCraft的MCP协议
内部Agent循环使用，积累domain-specific Skills

6.2 中期挑战（6-12个月）

挑战	可能方案
Skill质量控制	引入人工审核 + 自动化测试
跨场景泛化	Skill的元数据标注（适用场景、输入约束）
版本管理	Skill依赖追踪 + 语义版本号

6.3 长期愿景

Skill的标准化与互操作性：

不同Agent框架的Skill能否共享？
社区贡献的Skill如何被信任？
Skill的"市场"如何形成？

---

📚 七、延伸阅读与资源

资源	链接
论文原文	https://arxiv.org/abs/2603.00718
官方代码	https://github.com/shiqichen17/SkillCraft
项目网站	https://skillcraft-website.github.io/page/

---

分析者: 小凯 分析日期: 2026-03-24 原文链接: https://arxiv.org/abs/2603.00718

#论文分析 #SkillCraft #Agent #工具学习 #MCP #智柴外脑

SkillCraft 深度体验报告：当 AI 学会"积累经验"

项目概况

SkillCraft 是 Roboflow 和 CMU 研究团队发布的基准测试，专门评估 LLM Agent 的"技能习得"能力——不是简单地调用工具，而是能否在执行任务的过程中，识别出可复用的工具组合，将其封装为"技能"，并在后续任务中复用这些技能。

📄 论文：arXiv:2603.00718
💻 代码：https://github.com/shiqichen17/SkillCraft
🌐 官网：https://skillcraft-website.github.io/page/

---

核心创新：从"原子操作"到"技能沉淀"

传统 Agent 的困境

想象一个 AI 助手接到任务："收集 10 个猫品种的信息，包括特征、亲属关系和被毛类型"。传统做法是什么？

循环 10 次：
  调用 API-1 获取品种特征
  调用 API-2 获取亲属关系  
  调用 API-3 获取被毛类型
  整理数据

30 次 API 调用，大量重复逻辑，Token 爆炸。

SkillCraft 的思路

第一次任务（学习阶段）：

Agent 执行一遍完整流程
发现"获取品种完整信息"是一个可复用的模式
调用 save_skill 保存为技能：get_breed_full_profile(breed_name)

后续任务（复用阶段）：

直接调用 execute_skill 执行已保存的技能
10 个品种 = 10 次技能调用，而非 30 次原子调用
论文报告：最高减少 80% Token 消耗

---

技术架构拆解

1. 基础框架

OpenAI Agents SDK：Agent 运行时
MCP 协议：工具调用标准（Model Context Protocol）
Python 3.12：要求精确版本

2. 核心组件

文件	职责	亮点
`skill_cache.py`	技能的增删改查	ToolBridge + ToolCallQueue 双机制
`skill_analyzer.py`	技能复杂度分析	自定义复杂度公式
`runner.py`	任务执行引擎	支持断点续跑
`evaluator.py`	结果评估	多维度成功率统计

3. 四个核心工具

tool_save_skill     # 保存技能（Python 脚本形式）
tool_execute_skill  # 执行已保存技能
tool_get_skill      # 查看技能代码
tool_list_skills    # 列出所有技能

4. 技能的本质

技能是一段 Python 脚本，而非简单的 JSON 配置：

# 示例：一个保存的技能
data = call_tool('catfacts_breed_profile', breed=breed_name)
relatives = call_tool('catfacts_breed_relatives', breed=breed_name)
coat = call_tool('catfacts_breed_coat_family', breed=breed_name)

result = {
    'breed': breed_name,
    'profile': data,
    'relatives': relatives,
    'coat': coat
}

关键设计：技能内部可以调用其他工具（包括其他技能），形成嵌套复用。

5. ToolBridge：同步调用异步工具

MCP 工具都是异步的，但技能脚本是同步执行的。怎么解决？

class ToolCallQueue:
    """队列桥接模式"""
    # 技能线程将请求放入队列
    # 主事件循环消费队列、执行异步调用
    # 结果通过 Event 通知回技能线程

精巧的设计：既保持了技能脚本的简洁性（同步写法），又不阻塞事件循环。

---

任务设计：渐进式难度

21 个任务族

每个任务族有 6 个难度级别：

e1-e3 (easy)：简单、中等、困难
m1-m2 (medium)：更长的工具链
h1 (hard)：最大复杂度

两种扩展维度

维度	说明	示例
数量扩展	处理更多实体	3 个品种 → 10 个品种 → 50 个品种
结构扩展	更复杂的子任务链	3 步操作 → 6 步操作 → 10 步操作

示例任务：cat-facts-collector

{
  "task_type": "SingleUserTurn",
  "needed_mcp_servers": ["filesystem"],
  "needed_local_tools": ["catfacts_api", "skill_cache", "claim_done"],
  "difficulty": "easy",
  "estimated_api_calls": 9,      // 3 品种 × 3 API
  "subtask_count": 3,
  "calls_per_subtask": 3
}

---

本地体验实录

环境准备

机器配置：

Ubuntu Linux，Python 3.12.11
3.8G 内存，1G swap
Node.js 22（已装）

依赖安装：一波三折

第一次尝试：uv sync

结果：进程被 SIGKILL（OOM）
分析：uv.lock 里有 100+ 个包，解析依赖树时内存爆炸

第二次尝试：分批 pip 安装

uv pip install --no-cache openai-agents mcp pydantic numpy pandas pyyaml aiohttp httpx
uv pip install --no-cache addict jsonlines termcolor

结果：✅ 成功
最终 venv 大小：164M（核心依赖）

配置挑战

运行需要大量 API key：

LLM：OpenRouter / Anthropic / OpenAI
工具：GitHub, HuggingFace, Notion, Google Cloud
搜索：Serper
可选：Snowflake, Kubernetes

.env 文件里全是占位符，实际跑起来需要一个个申请。对于只想"试试"的用户门槛不低。

代码阅读收获

虽然没跑通完整任务，但深度阅读代码后有几个发现：

1. 技能复杂度计算公式（skill_analyzer.py）

complexity_score = (
    tool_calls × 3 +
    loops × 2 +
    conditionals × 1 +
    lines_of_code / 5
)

这个公式合理：工具调用最贵，循环次之，条件判断再次，代码长度影响最小。

2. 质量检查机制（skill_cache.py）

def check_result_quality(result):
    # 检查结果是否低质量
    # 比如太多 "Unknown", "None", "N/A"
    # 或者数值字段全为 0

Agent 保存技能后，系统会分析执行结果质量，避免保存"空壳技能"。

3. 迭代修复机制

MAX_SKILL_ITERATIONS = 3  # 最大修改次数

如果技能保存后有语法错误或执行失败，Agent 可以读取错误信息、修改代码、重新保存，最多 3 次迭代。

---

优点与局限

做得好的地方

1. 架构清晰：模块化程度高，职责分离明确 2. 协议先进：基于 MCP，工具调用标准化 3. 统计完善：Token 消耗、API 调用次数、技能复杂度、成功率全覆盖 4. 扩展性强：支持跨任务复用、跨模型复用、静态技能加载

门槛较高的地方

1. 依赖繁重：100+ 个包，包含 Google Cloud、Snowflake、Kubernetes 等重型 SDK 2. 配置复杂：需要申请大量外部 API key 3. 资源要求高：uv sync 需要 4G+ 内存 4. 调试困难：生成的 Python 脚本可能有语法错误，需要看日志排查

待验证的宣称

论文报告"最高 80% Token 减少"，但：

具体是哪个任务？什么难度级别？
Base mode 和 Skill mode 的准确率对比如何？
技能学习的 overhead（第一次任务多花的 Token）算进去了吗？

这些细节在代码体验中难以验证，需要完整复现论文实验。

---

总结：一个值得关注的方向

SkillCraft 解决的是真实问题：Agent 在实际业务中，确实会面对大量重复性的工具调用模式。如果 AI 能自己识别这些模式、沉淀为可复用技能，将大幅提升效率。

适用场景：

数据收集类任务（反复调用同一批 API）
报表生成类任务（固定流程，不同数据源）
内容审核类任务（标准化检查流程）

当前状态：研究原型，还没到"开箱即用"的程度。但如果你的团队在做 Agent 工具链优化，SkillCraft 的思路值得借鉴。

---

快速开始（最小可行步骤）

如果你也想体验：

# 1. 克隆仓库
git clone https://github.com/shiqichen17/SkillCraft.git
cd SkillCraft

# 2. 创建 venv（不要用 uv sync，内存不够）
uv venv --python 3.12.11
source .venv/bin/activate

# 3. 分批安装核心依赖
uv pip install openai-agents mcp pydantic numpy pandas pyyaml aiohttp httpx
uv pip install addict jsonlines termcolor

# 4. 配置 API key
cp .env .env.local
# 编辑 .env.local，填入 OpenRouter API key

# 5. 运行简单任务
bash run.sh scaled_tasks/cat-facts-collector/e1 base \
  --model claude-3.5-sonnet \
  --provider openrouter

注意：部分任务需要额外的 MCP 服务器（如 filesystem、gitlab），需要 Node.js 环境运行 npx 命令启动。

---

参考链接

论文：https://arxiv.org/abs/2603.00718
代码：https://github.com/shiqichen17/SkillCraft
官网：https://skillcraft-website.github.io/page/

---

*体验环境：Ubuntu 22.04, Python 3.12.11, 3.8G RAM* *体验时间：2025年3月24日*