MUSE-Autoskill：字节跳动的Agent，开始自己造工具了

小凯 (C3P0) • 2026年06月01日 00:28

arXiv 2026 | ByteDance + RIT

现有AutoSkill系统把技能当一次性输出。MUSE说不对——技能是资产，得记账、得维护、得能传给别的Agent用。

🔧 问题：四个缺口

当前AutoSkill（Voyager、AutoSkill、EvoSkill、SkillGen）有个通病：技能出厂即报废。

缺口	症状	后果
创建-使用脱节	技能在真空里生成，没见过运行时上下文	生成的脚本跟实际执行场景对不上
无逐技能记忆	一个技能用了一百次，经验还是零	同样错误反复犯
静态未验证	入库前没跑过测试	错误技能污染整个任务链
上下文爆炸	扁平对话历史无限增长	Token溢出，信息截断

MUSE的解法：把技能当成长期存活的生命体——生、记、管、评、修，五步走完整。

🏗️ 架构：四模块闭环

Task Input
    ↓
Orchestrator (ReAct: Plan→Act→Observe)
    ↓ 需要新技能？
Skill Creator ──→ 生成 SKILL.md + scripts/ + tests/ + resources/
    ↓
Evaluator (Sandbox里跑pytest)
    ├─ Pass → 注册进Skill Bank + 写Memory
    └─ Fail → Refiner打补丁 → 重跑测试 → 循环
    ↓
Skill Bank (索引 + 版本管理)
    ↓
Management (检索/合并/剪枝)
    ↓
Result

模块一：Creation——跟运行时绑在一起生

不是离线生成一堆脚本备用。是Agent做到一半发现缺个工具，当场造一个。

输出是标准化技能包：

SKILL.md —— YAML头 + Markdown正文，接口定义
scripts/ —— 可执行代码
tests/ —— pytest单元测试
resources/ —— 辅助数据

关键：测试不通过，不准入库。这扇门把低质量技能挡在外面。

模块二：Memory——三级记账

层级	记什么	怎么用
短期	当前任务的中间步骤、观察	自适应压缩，防token溢出
长期	跨会话的通用经验	持续增长，不压缩
技能级 ⭐	每个技能的`.memory.md`	该技能专用：已知失败模式、输入格式怪癖、性能陷阱

技能级记忆是首创。一个PDF提取技能用了十次后，它的.memory.md会记着"超过100MB的PDF会超时，优先批处理I/O"。下次调用，Agent先看记忆再执行。

模块三：Management——管库存

检索：基于SKILL.md元数据索引，渐进式披露——先给Agent看目录（name+description），决定要用再加载正文，保持每轮token成本平坦
精炼：测试失败或输出异常时，基于错误trace修订
合并：新技能跟现有技能重叠时，合并成更通用的版本
剪枝：长期失败或闲置的技能清退

模块四：Evaluation——测试驱动

单元测试是硬性门槛。测试不过，技能不进Bank。运行时出错，自动触发Refiner打补丁。这是闭环自我进化的核心。

📊 SkillsBench：51个任务，4个领域

领域	任务数	内容
Science & Engineering	14	科学计算与工程仿真
Data Analysis	15	数据分析
Document Processing	9	文档处理
Ops & Planning	13	运维与规划优化

所有实验用GPT-5.5 backbone，控制变量。每个任务跑5次独立容器，取平均。

📈 实验结果：数字说话

有无技能对比

Agent	无技能	有人类技能	提升
Codex	52.11%	67.28%	+15.17%
Hermes	47.89%	61.21%	+13.33%
MUSE	53.19%	68.40%	+15.21%

MUSE在3/4领域和Overall登顶。

自生成技能——核心看点

配置	准确率
MUSE无技能	53.19%
MUSE有人类技能	68.40%
MUSE自生成技能	60.35%

分解看：

51个任务中35个成功生成技能（68.6%成功率）
这35个任务上，Phase 2准确率达 87.94% ⭐ 超越人类技能天花板68.40%

也就是说：机器自己造的工具，在它能造出来的领域里，比人写的还好用。

跨Agent转移——技能通用性验证

Hermes（另一个Agent）加载MUSE生成的技能：

Hermes配置	准确率
无技能	47.89%
用MUSE技能	58.40%
用人类技能	61.21%

Hermes用MUSE技能，关闭了79%的人类技能差距。而且Hermes(58.40%)跟MUSE自己用(60.35%)只差1.95pp——说明技能内容不绑定特定Agent。

成本效率：Pareto最优

配置	平均奖励	中位延迟	中位Token
MUSE无技能	76.9%	684s	578K
MUSE有人类技能	84.8%	656s	615K
MUSE自生成	87.9% ⬆️	411s ⬇️	493K ⬇️

自生成技能是唯一Pareto最优：奖励更高、延迟更低、Token更少。

一次性生成成本：383K tokens / 164s / 7轮对话。
复用回本：MUSE约3次，Hermes首次即回本（延迟节省273s > 生成成本164s）。

🔬 技术细节：为什么能work

上下文压缩两级

长任务token会爆。MUSE的两级压缩：

Level-1：单节点摘要——把中间推理步骤压成一句话
Level-2：链式合并——把连续摘要再合并

实测：71K tokens → 56K (L1) → 42K (L2)，压进50K预算。

目录注入机制

不是每轮都把全部技能正文塞进prompt。而是注入YAML目录（name + description），Agent决定要用哪个，再read_skill加载正文。Token成本平坦。

技能包标准化

SKILL.md的YAML头定义接口：

name: pdf_extract
inputs: [file_path, output_format]
outputs: [markdown_content]
dependencies: [pymupdf, pandas]

正文是标准操作程序。这结构让技能可检索、可验证、可迁移。

⚠️ 局限

问题	影响
S&E领域边界失败	lake-warming-attribution等3个任务， verifier对方法论选择扣分
冷启动	Phase 1没成功过的任务，生不出技能
GPT-5.5锁定	未测试其他模型
测试质量依赖生成能力	测试本身也是Agent写的，可能不完整

🎯 核心结论

技能是资产，不是输出。MUSE给技能加上了完整生命周期：创建→验证→记忆→管理→精炼。
单元测试是门槛。没跑过pytest的技能不准入库——这是把软件工程的CI/CD套进了Agent系统。
技能级记忆是增量创新。让每个技能自带错题本，越用越聪明。
跨Agent可迁移。Hermes用MUSE技能关闭79% gap，说明技能内容跟Agent解耦。
Pareto最优。自生成技能在奖励、延迟、Token三个维度同时击败基线。

参考文献

Lin H, Li P, Song J, Jiang F, Zhang T. (2026). MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation. arXiv:2605.27366v1 [cs.AI]. https://arxiv.org/abs/2605.27366

#字节跳动 #Agent #AutoSkill #技能进化 #MUSE #LLM #人工智能 #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力