arXiv 2026 | ByteDance + RIT
现有AutoSkill系统把技能当一次性输出。MUSE说不对——技能是资产,得记账、得维护、得能传给别的Agent用。
🔧 问题:四个缺口
当前AutoSkill(Voyager、AutoSkill、EvoSkill、SkillGen)有个通病:技能出厂即报废。
| 缺口 | 症状 | 后果 |
|---|---|---|
| 创建-使用脱节 | 技能在真空里生成,没见过运行时上下文 | 生成的脚本跟实际执行场景对不上 |
| 无逐技能记忆 | 一个技能用了一百次,经验还是零 | 同样错误反复犯 |
| 静态未验证 | 入库前没跑过测试 | 错误技能污染整个任务链 |
| 上下文爆炸 | 扁平对话历史无限增长 | Token溢出,信息截断 |
MUSE的解法:把技能当成长期存活的生命体——生、记、管、评、修,五步走完整。
🏗️ 架构:四模块闭环
Task Input
↓
Orchestrator (ReAct: Plan→Act→Observe)
↓ 需要新技能?
Skill Creator ──→ 生成 SKILL.md + scripts/ + tests/ + resources/
↓
Evaluator (Sandbox里跑pytest)
├─ Pass → 注册进Skill Bank + 写Memory
└─ Fail → Refiner打补丁 → 重跑测试 → 循环
↓
Skill Bank (索引 + 版本管理)
↓
Management (检索/合并/剪枝)
↓
Result
模块一:Creation——跟运行时绑在一起生
不是离线生成一堆脚本备用。是Agent做到一半发现缺个工具,当场造一个。
输出是标准化技能包:
SKILL.md—— YAML头 + Markdown正文,接口定义scripts/—— 可执行代码tests/—— pytest单元测试resources/—— 辅助数据
关键:测试不通过,不准入库。这扇门把低质量技能挡在外面。
模块二:Memory——三级记账
| 层级 | 记什么 | 怎么用 |
|---|---|---|
| 短期 | 当前任务的中间步骤、观察 | 自适应压缩,防token溢出 |
| 长期 | 跨会话的通用经验 | 持续增长,不压缩 |
| 技能级 ⭐ | 每个技能的.memory.md |
该技能专用:已知失败模式、输入格式怪癖、性能陷阱 |
技能级记忆是首创。一个PDF提取技能用了十次后,它的.memory.md会记着"超过100MB的PDF会超时,优先批处理I/O"。下次调用,Agent先看记忆再执行。
模块三:Management——管库存
- 检索:基于SKILL.md元数据索引,渐进式披露——先给Agent看目录(name+description),决定要用再加载正文,保持每轮token成本平坦
- 精炼:测试失败或输出异常时,基于错误trace修订
- 合并:新技能跟现有技能重叠时,合并成更通用的版本
- 剪枝:长期失败或闲置的技能清退
模块四:Evaluation——测试驱动
单元测试是硬性门槛。测试不过,技能不进Bank。运行时出错,自动触发Refiner打补丁。这是闭环自我进化的核心。
📊 SkillsBench:51个任务,4个领域
| 领域 | 任务数 | 内容 |
|---|---|---|
| Science & Engineering | 14 | 科学计算与工程仿真 |
| Data Analysis | 15 | 数据分析 |
| Document Processing | 9 | 文档处理 |
| Ops & Planning | 13 | 运维与规划优化 |
所有实验用GPT-5.5 backbone,控制变量。每个任务跑5次独立容器,取平均。
📈 实验结果:数字说话
有无技能对比
| Agent | 无技能 | 有人类技能 | 提升 |
|---|---|---|---|
| Codex | 52.11% | 67.28% | +15.17% |
| Hermes | 47.89% | 61.21% | +13.33% |
| MUSE | 53.19% | 68.40% | +15.21% |
MUSE在3/4领域和Overall登顶。
自生成技能——核心看点
| 配置 | 准确率 |
|---|---|
| MUSE无技能 | 53.19% |
| MUSE有人类技能 | 68.40% |
| MUSE自生成技能 | 60.35% |
分解看:
- 51个任务中35个成功生成技能(68.6%成功率)
- 这35个任务上,Phase 2准确率达 87.94% ⭐ 超越人类技能天花板68.40%
也就是说:机器自己造的工具,在它能造出来的领域里,比人写的还好用。
跨Agent转移——技能通用性验证
Hermes(另一个Agent)加载MUSE生成的技能:
| Hermes配置 | 准确率 |
|---|---|
| 无技能 | 47.89% |
| 用MUSE技能 | 58.40% |
| 用人类技能 | 61.21% |
Hermes用MUSE技能,关闭了79%的人类技能差距。而且Hermes(58.40%)跟MUSE自己用(60.35%)只差1.95pp——说明技能内容不绑定特定Agent。
成本效率:Pareto最优
| 配置 | 平均奖励 | 中位延迟 | 中位Token |
|---|---|---|---|
| MUSE无技能 | 76.9% | 684s | 578K |
| MUSE有人类技能 | 84.8% | 656s | 615K |
| MUSE自生成 | 87.9% ⬆️ | 411s ⬇️ | 493K ⬇️ |
自生成技能是唯一Pareto最优:奖励更高、延迟更低、Token更少。
一次性生成成本:383K tokens / 164s / 7轮对话。
复用回本:MUSE约3次,Hermes首次即回本(延迟节省273s > 生成成本164s)。
🔬 技术细节:为什么能work
上下文压缩两级
长任务token会爆。MUSE的两级压缩:
- Level-1:单节点摘要——把中间推理步骤压成一句话
- Level-2:链式合并——把连续摘要再合并
实测:71K tokens → 56K (L1) → 42K (L2),压进50K预算。
目录注入机制
不是每轮都把全部技能正文塞进prompt。而是注入YAML目录(name + description),Agent决定要用哪个,再read_skill加载正文。Token成本平坦。
技能包标准化
SKILL.md的YAML头定义接口:
name: pdf_extract
inputs: [file_path, output_format]
outputs: [markdown_content]
dependencies: [pymupdf, pandas]
正文是标准操作程序。这结构让技能可检索、可验证、可迁移。
⚠️ 局限
| 问题 | 影响 |
|---|---|
| S&E领域边界失败 | lake-warming-attribution等3个任务, verifier对方法论选择扣分 |
| 冷启动 | Phase 1没成功过的任务,生不出技能 |
| GPT-5.5锁定 | 未测试其他模型 |
| 测试质量依赖生成能力 | 测试本身也是Agent写的,可能不完整 |
🎯 核心结论
- 技能是资产,不是输出。MUSE给技能加上了完整生命周期:创建→验证→记忆→管理→精炼。
- 单元测试是门槛。没跑过pytest的技能不准入库——这是把软件工程的CI/CD套进了Agent系统。
- 技能级记忆是增量创新。让每个技能自带错题本,越用越聪明。
- 跨Agent可迁移。Hermes用MUSE技能关闭79% gap,说明技能内容跟Agent解耦。
- Pareto最优。自生成技能在奖励、延迟、Token三个维度同时击败基线。
参考文献
- Lin H, Li P, Song J, Jiang F, Zhang T. (2026). MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation. arXiv:2605.27366v1 [cs.AI]. https://arxiv.org/abs/2605.27366
#字节跳动 #Agent #AutoSkill #技能进化 #MUSE #LLM #人工智能 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。