一句话摘要:蚂蚁集团 + 港科大(广州)提出 Skill-MAS——把多 Agent 系统的编排策略当成可进化的"元技能"(Meta-Skill),让冻结的大模型在不更新参数的情况下,通过多轨迹采样 + 选择性反思持续学习。实验证明,冻结的 GPT-5.4-Nano 经 Skill-MAS 优化后,性能超过昂贵的推理时重排策略,且学到的元技能跨模型、跨任务可迁移。
一、多 Agent 编排的"不可能三角"
大语言模型(LLM)驱动的多智能体系统(MAS)已经成了复杂任务的标配。但这里有个根本性的两难:
| 路线 | 模型能力 | 经验积累 | 核心问题 |
|---|---|---|---|
| 推理时编排 | 强(用 GPT-5、Claude 等前沿模型) | ❌ 无 | 每次从零开始,重复犯同样的错 |
| 训练时编排 | 弱(只能训 7B 小模型) | ✓ 有 | 无法 scale 到前沿模型,数据需求巨大 |
推理时编排的问题很直观:你让 GPT-5 去编排一群 Agent,它每次都像第一次做这件事——不记教训,不积累经验。同一个失败模式反复出现。
训练时编排的问题更深层:把编排能力内化到模型参数里,意味着你要对 7B 参数的模型做梯度更新。前沿模型(>100B)根本训不起,而且需要海量标注数据。
Skill-MAS 问了一个狠问题:
有没有第三条路——既保留前沿模型的强大推理能力,又能像训练时方法那样积累经验?
答案是:把"编排策略"外化为一个可进化的自然语言工件,让冻结的 LLM 来执行它。
二、元技能(Meta-Skill):策略即代码
Skill-MAS 的核心创新是 Meta-Skill 概念。
想象你有一个非常厉害的导演(前沿 LLM),但他每次拍戏都要重新想"怎么调度演员"。Skill-MAS 的做法是:让导演写一本《导演手册》,每次拍戏前先看手册,拍完再根据经验更新手册。导演本人(模型参数)不动,手册(元技能)一直在进化。
这个 Meta-Skill 是一个结构化的自然语言文档,包含三个模块:
模块一:任务分解(What)
- 意图与范围分析
- 子任务拆解为逻辑上自洽的单元
- 逻辑依赖关系映射
- 成功标准定义
模块二:Agent 工程(Who)
- 角色画像,赋予独特身份
- 精确的指令设计
- 输入上下文框架
模块三:工作流编排(How)
- 架构拓扑选择(串行、层级、循环等)
- 数据流与状态管理
- 可执行代码生成
这和 OpenClaw 的 Skill 机制异曲同工——把策略外化为可版本控制的文本,而不是埋在模型权重里。
三、闭环进化:多轨迹采样 + 选择性反思
Skill-MAS 的进化过程是一个两阶段闭环,跑 R 轮:
阶段一:多轨迹采样(Multi-Trajectory Rollout)
对当前元技能 \(S^(r)\) 下的每个任务,采样 \(K\) 条独立执行轨迹(K=5)。
为什么要多条?因为 LLM 输出有随机性,单次成功可能是运气。多条轨迹能分离"真实能力"和"执行噪声"。
然后计算两条统计量:
- 不确定度 \(u_i\) = 分数的标准差(std)
- 困难度 \(d_i\) = -平均分数
不确定度高 = 模型对这个任务很纠结,不同次执行结果差异大。
困难度高 = 模型整体表现差。
阶段二:选择性反思(Selective Reflection)
1. 优先级驱动的任务选择
把 \(u_i\) 和 \(d_i\) 融合成一个优先级分数 \(p_i\),画优先级曲线,找"拐点"(elbow),只选前 \(j*\) 个任务做反思。
为什么选择性? 因为不是所有任务都值得反思。有些任务已经很稳定了,优化它们收益递减。集中火力在"既难又不确定"的任务上。
2. 分层轨迹反思
第一层:任务内对比分析
- 把每个选中任务的高分轨迹 \(H_i\) 和低分轨迹 \(L_i\) 对比
- 找出"为什么这次好、那次差"的局部规律
第二层:跨任务综合
- 把多个任务的观察提炼成系统性模式
- 给补丁打优先级,形成证据包 E
3. 技能优化
根据证据包 \(E\),有针对性地更新元技能的三个模块:
- 哪里弱补哪里,不全面重写
- 保留三模块脚手架结构
- 抽象为可泛化的原则(不是 task-specific 的 hack)
然后进入下一轮 \(S^(r+1)\)。
四、实验:四个大模型,四个复杂领域
测试基准
| 基准 | 领域 | 评估指标 |
|---|---|---|
| DeepResearchBench (DRB) | 深度研究报告撰写 | 全面性、洞察力、指令遵循、可读性 |
| Humanity's Last Exam-Math (HLE) | 专家级数学 | 准确率 |
| BrowseComp-Plus (BCP) | 多跳动态 QA | 准确率 |
| VitaBench | 真实世界交互场景(工具调用) | 基于评分标准的成功率 |
测试模型
- Gemini-3.1-Flash(专有)
- GPT-5.4-Nano(专有)
- Qwen3.5-Plus(开源)
- DeepSeek-V4-Flash(开源)
核心结果
Skill-MAS-optimized 在四个模型上都取得了最高平均性能:
| 模型 | 最佳基线 | Skill-MAS 初始 | Skill-MAS 优化后 | 提升 |
|---|---|---|---|---|
| Gemini-3.1-Flash | 21.29 | 21.68 | 29.49 | +38.5% |
| GPT-5.4-Nano | 24.83 | 19.64 | 27.55 | +11.0% |
| Qwen3.5-Plus | 32.23 | 32.61 | 38.41 | +19.2% |
| DeepSeek-V4-Flash | 35.70 | 33.72 | 41.05 | +15.0% |
成本-性能权衡:
- 训练时 MAS:最便宜,但性能最差
- 推理时 MAS:性能较好,但最贵(每样本都重优化)
- Skill-MAS:性能最高,成本适中(一次性进化元技能,之后零额外成本)
五、元技能的可迁移性:学到的不是 domain trick,是编排智慧
这是 Skill-MAS 最惊艳的发现。
他们做了三种迁移测试:
场景 A:跨模型迁移(同任务,不同 LLM)
在 GPT-5.4-Nano 上进化出的 Meta-Skill,直接给 Qwen3.5-Plus 用,性能从 18.45 提升到 24.40。
这意味着:Meta-Skill 学到的不是某个模型的"怪癖",而是 任务无关的编排策略。
场景 B:跨任务迁移(不同任务,同 LLM)
在 BCP 上进化出的 Meta-Skill,给 VitaBench 用,从 0 提升到 13.10。反过来,VitaBench→BCP 从 0 提升到 23.21。
这说明:Meta-Skill 捕获的是 跨域的编排原则,不是特定任务的 hack。
场景 C:跨模型 + 跨任务(最难)
不同任务 AND 不同 LLM,仍然有正向迁移。
六、技能进化的真实轨迹:从混沌到秩序
论文展示了一个 BrowseComp-Plus 上的进化案例,Meta-Skill 的改进轨迹非常清晰:
| 轮次 | 模块一(What) | 模块二(Who) | 模块三(How) |
|---|---|---|---|
| 初始 | 通用分解 | 基础角色 | 简单拓扑 |
| 1 | 增加证据权重、并行展开 | — | — |
| 2 | — | 加权满意度协议 | — |
| 3 | — | — | 回溯与动态重规划 |
| 4 | — | — | 链接验证任务 |
| 5(最佳) | — | — | 合并节点重执行权限 |
进化路径:分解设计 → Agent 层面的认识论控制 → 系统层面的容错韧性
这不是随机搜索,是一个有方向的、分层的策略积累。
七、对 Agent 开发者的启示
1. 策略外化 > 参数内化
不要把编排策略埋在 prompt 工程或微调权重里。把它写成可版本控制的结构化文档(SKILL.md 风格),让策略本身成为一等公民。
2. 多轨迹采样是必需的
单条轨迹的成功可能是运气。K=5 条轨迹的统计量(均值、方差)才能告诉你"模型是真会了,还是蒙对了"。
3. 选择性反思 > 全面复盘
不是所有失败都值得分析。用"不确定度 × 困难度"做优先级排序,集中优化资源在最有信息量的任务上。
4. 跨层抽象
反思不能停留在"这个任务怎么做对了",要提炼到"这类任务有什么通用原则"。这是 Skill-MAS 能实现跨任务迁移的关键。
八、局限与未来
当前限制:
- 选择性反思需要 ground-truth 标签(知道哪些轨迹是"高分"、"低分")。未来可以引入 LLM-as-a-judge 做自监督评估。
- 多任务学习还没有系统优化,当前是简单混合。
更深层的问题:
Meta-Skill 的进化天花板在哪?如果所有编排策略都可以外化为自然语言,那 LLM 的"智能"到底在哪里——是在执行策略的能力,还是在生成策略的能力?
Skill-MAS 的回答是:两者都重要,但策略本身可以独立于执行者进化。这有点像是把"算法"从"硬件"中解耦出来。
参考论文
- Lin et al. (2026). Skill-MAS: Evolving Meta-Skill for Automatic Multi-Agent Systems. Ant Group & HKUST(GZ), arXiv:2606.18837.
#SkillMAS #多Agent系统 #元技能 #蚂蚁集团 #Agent编排 #自动MAS #LLM #MetaSkill #Agent进化
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。