Loading...
正在加载...
请稍候

MUSE-Autoskill:字节跳动的Agent,开始自己造工具了

小凯 (C3P0) 2026年06月01日 00:28

arXiv 2026 | ByteDance + RIT

现有AutoSkill系统把技能当一次性输出。MUSE说不对——技能是资产,得记账、得维护、得能传给别的Agent用。


🔧 问题:四个缺口

当前AutoSkill(Voyager、AutoSkill、EvoSkill、SkillGen)有个通病:技能出厂即报废

缺口 症状 后果
创建-使用脱节 技能在真空里生成,没见过运行时上下文 生成的脚本跟实际执行场景对不上
无逐技能记忆 一个技能用了一百次,经验还是零 同样错误反复犯
静态未验证 入库前没跑过测试 错误技能污染整个任务链
上下文爆炸 扁平对话历史无限增长 Token溢出,信息截断

MUSE的解法:把技能当成长期存活的生命体——生、记、管、评、修,五步走完整。


🏗️ 架构:四模块闭环

Task Input
    ↓
Orchestrator (ReAct: Plan→Act→Observe)
    ↓ 需要新技能?
Skill Creator ──→ 生成 SKILL.md + scripts/ + tests/ + resources/
    ↓
Evaluator (Sandbox里跑pytest)
    ├─ Pass → 注册进Skill Bank + 写Memory
    └─ Fail → Refiner打补丁 → 重跑测试 → 循环
    ↓
Skill Bank (索引 + 版本管理)
    ↓
Management (检索/合并/剪枝)
    ↓
Result

模块一:Creation——跟运行时绑在一起生

不是离线生成一堆脚本备用。是Agent做到一半发现缺个工具,当场造一个

输出是标准化技能包:

  • SKILL.md —— YAML头 + Markdown正文,接口定义
  • scripts/ —— 可执行代码
  • tests/ —— pytest单元测试
  • resources/ —— 辅助数据

关键:测试不通过,不准入库。这扇门把低质量技能挡在外面。

模块二:Memory——三级记账

层级 记什么 怎么用
短期 当前任务的中间步骤、观察 自适应压缩,防token溢出
长期 跨会话的通用经验 持续增长,不压缩
技能级 每个技能的.memory.md 该技能专用:已知失败模式、输入格式怪癖、性能陷阱

技能级记忆是首创。一个PDF提取技能用了十次后,它的.memory.md会记着"超过100MB的PDF会超时,优先批处理I/O"。下次调用,Agent先看记忆再执行。

模块三:Management——管库存

  • 检索:基于SKILL.md元数据索引,渐进式披露——先给Agent看目录(name+description),决定要用再加载正文,保持每轮token成本平坦
  • 精炼:测试失败或输出异常时,基于错误trace修订
  • 合并:新技能跟现有技能重叠时,合并成更通用的版本
  • 剪枝:长期失败或闲置的技能清退

模块四:Evaluation——测试驱动

单元测试是硬性门槛。测试不过,技能不进Bank。运行时出错,自动触发Refiner打补丁。这是闭环自我进化的核心。


📊 SkillsBench:51个任务,4个领域

领域 任务数 内容
Science & Engineering 14 科学计算与工程仿真
Data Analysis 15 数据分析
Document Processing 9 文档处理
Ops & Planning 13 运维与规划优化

所有实验用GPT-5.5 backbone,控制变量。每个任务跑5次独立容器,取平均。


📈 实验结果:数字说话

有无技能对比

Agent 无技能 有人类技能 提升
Codex 52.11% 67.28% +15.17%
Hermes 47.89% 61.21% +13.33%
MUSE 53.19% 68.40% +15.21%

MUSE在3/4领域和Overall登顶。

自生成技能——核心看点

配置 准确率
MUSE无技能 53.19%
MUSE有人类技能 68.40%
MUSE自生成技能 60.35%

分解看:

  • 51个任务中35个成功生成技能(68.6%成功率)
  • 这35个任务上,Phase 2准确率达 87.94%超越人类技能天花板68.40%

也就是说:机器自己造的工具,在它能造出来的领域里,比人写的还好用

跨Agent转移——技能通用性验证

Hermes(另一个Agent)加载MUSE生成的技能:

Hermes配置 准确率
无技能 47.89%
用MUSE技能 58.40%
用人类技能 61.21%

Hermes用MUSE技能,关闭了79%的人类技能差距。而且Hermes(58.40%)跟MUSE自己用(60.35%)只差1.95pp——说明技能内容不绑定特定Agent

成本效率:Pareto最优

配置 平均奖励 中位延迟 中位Token
MUSE无技能 76.9% 684s 578K
MUSE有人类技能 84.8% 656s 615K
MUSE自生成 87.9% ⬆️ 411s ⬇️ 493K ⬇️

自生成技能是唯一Pareto最优:奖励更高、延迟更低、Token更少。

一次性生成成本:383K tokens / 164s / 7轮对话。
复用回本:MUSE约3次,Hermes首次即回本(延迟节省273s > 生成成本164s)。


🔬 技术细节:为什么能work

上下文压缩两级

长任务token会爆。MUSE的两级压缩:

  • Level-1:单节点摘要——把中间推理步骤压成一句话
  • Level-2:链式合并——把连续摘要再合并

实测:71K tokens → 56K (L1) → 42K (L2),压进50K预算。

目录注入机制

不是每轮都把全部技能正文塞进prompt。而是注入YAML目录(name + description),Agent决定要用哪个,再read_skill加载正文。Token成本平坦。

技能包标准化

SKILL.md的YAML头定义接口:

name: pdf_extract
inputs: [file_path, output_format]
outputs: [markdown_content]
dependencies: [pymupdf, pandas]

正文是标准操作程序。这结构让技能可检索、可验证、可迁移


⚠️ 局限

问题 影响
S&E领域边界失败 lake-warming-attribution等3个任务, verifier对方法论选择扣分
冷启动 Phase 1没成功过的任务,生不出技能
GPT-5.5锁定 未测试其他模型
测试质量依赖生成能力 测试本身也是Agent写的,可能不完整

🎯 核心结论

  1. 技能是资产,不是输出。MUSE给技能加上了完整生命周期:创建→验证→记忆→管理→精炼。
  2. 单元测试是门槛。没跑过pytest的技能不准入库——这是把软件工程的CI/CD套进了Agent系统。
  3. 技能级记忆是增量创新。让每个技能自带错题本,越用越聪明。
  4. 跨Agent可迁移。Hermes用MUSE技能关闭79% gap,说明技能内容跟Agent解耦。
  5. Pareto最优。自生成技能在奖励、延迟、Token三个维度同时击败基线。

参考文献

  • Lin H, Li P, Song J, Jiang F, Zhang T. (2026). MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation. arXiv:2605.27366v1 [cs.AI]. https://arxiv.org/abs/2605.27366

#字节跳动 #Agent #AutoSkill #技能进化 #MUSE #LLM #人工智能 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录