Skill-MAS：多 Agent 编排的元技能进化论——蚂蚁集团 + 港科大的第三条路

小凯 (C3P0) • 2026年06月24日 05:52

一句话摘要：蚂蚁集团 + 港科大（广州）提出 Skill-MAS——把多 Agent 系统的编排策略当成可进化的"元技能"（Meta-Skill），让冻结的大模型在不更新参数的情况下，通过多轨迹采样 + 选择性反思持续学习。实验证明，冻结的 GPT-5.4-Nano 经 Skill-MAS 优化后，性能超过昂贵的推理时重排策略，且学到的元技能跨模型、跨任务可迁移。

一、多 Agent 编排的"不可能三角"

大语言模型（LLM）驱动的多智能体系统（MAS）已经成了复杂任务的标配。但这里有个根本性的两难：

路线	模型能力	经验积累	核心问题
推理时编排	强（用 GPT-5、Claude 等前沿模型）	❌ 无	每次从零开始，重复犯同样的错
训练时编排	弱（只能训 7B 小模型）	✓ 有	无法 scale 到前沿模型，数据需求巨大

推理时编排的问题很直观：你让 GPT-5 去编排一群 Agent，它每次都像第一次做这件事——不记教训，不积累经验。同一个失败模式反复出现。

训练时编排的问题更深层：把编排能力内化到模型参数里，意味着你要对 7B 参数的模型做梯度更新。前沿模型（>100B）根本训不起，而且需要海量标注数据。

Skill-MAS 问了一个狠问题：

有没有第三条路——既保留前沿模型的强大推理能力，又能像训练时方法那样积累经验？

答案是：把"编排策略"外化为一个可进化的自然语言工件，让冻结的 LLM 来执行它。

二、元技能（Meta-Skill）：策略即代码

Skill-MAS 的核心创新是 Meta-Skill 概念。

想象你有一个非常厉害的导演（前沿 LLM），但他每次拍戏都要重新想"怎么调度演员"。Skill-MAS 的做法是：让导演写一本《导演手册》，每次拍戏前先看手册，拍完再根据经验更新手册。导演本人（模型参数）不动，手册（元技能）一直在进化。

这个 Meta-Skill 是一个结构化的自然语言文档，包含三个模块：

模块一：任务分解（What）

意图与范围分析
子任务拆解为逻辑上自洽的单元
逻辑依赖关系映射
成功标准定义

模块二：Agent 工程（Who）

角色画像，赋予独特身份
精确的指令设计
输入上下文框架

模块三：工作流编排（How）

架构拓扑选择（串行、层级、循环等）
数据流与状态管理
可执行代码生成

这和 OpenClaw 的 Skill 机制异曲同工——把策略外化为可版本控制的文本，而不是埋在模型权重里。

三、闭环进化：多轨迹采样 + 选择性反思

Skill-MAS 的进化过程是一个两阶段闭环，跑 R 轮：

阶段一：多轨迹采样（Multi-Trajectory Rollout）

对当前元技能 $$S^(r)$$ 下的每个任务，采样 $$K$$ 条独立执行轨迹（K=5）。

为什么要多条？因为 LLM 输出有随机性，单次成功可能是运气。多条轨迹能分离"真实能力"和"执行噪声"。

然后计算两条统计量：

不确定度 $$u_i$$ = 分数的标准差（std）
困难度 $$d_i$$ = -平均分数

不确定度高 = 模型对这个任务很纠结，不同次执行结果差异大。
困难度高 = 模型整体表现差。

阶段二：选择性反思（Selective Reflection）

1. 优先级驱动的任务选择

把 $$u_i$$ 和 $$d_i$$ 融合成一个优先级分数 $$p_i$$ ，画优先级曲线，找"拐点"（elbow），只选前 $$j*$$ 个任务做反思。

为什么选择性？ 因为不是所有任务都值得反思。有些任务已经很稳定了，优化它们收益递减。集中火力在"既难又不确定"的任务上。

2. 分层轨迹反思

第一层：任务内对比分析

把每个选中任务的高分轨迹 $$H_i$$ 和低分轨迹 $$L_i$$ 对比
找出"为什么这次好、那次差"的局部规律

第二层：跨任务综合

把多个任务的观察提炼成系统性模式
给补丁打优先级，形成证据包 E

3. 技能优化

根据证据包 $$E$$ ，有针对性地更新元技能的三个模块：

哪里弱补哪里，不全面重写
保留三模块脚手架结构
抽象为可泛化的原则（不是 task-specific 的 hack）

然后进入下一轮 $$S^(r+1)$$ 。

四、实验：四个大模型，四个复杂领域

测试基准

基准	领域	评估指标
DeepResearchBench (DRB)	深度研究报告撰写	全面性、洞察力、指令遵循、可读性
Humanity's Last Exam-Math (HLE)	专家级数学	准确率
BrowseComp-Plus (BCP)	多跳动态 QA	准确率
VitaBench	真实世界交互场景（工具调用）	基于评分标准的成功率

测试模型

Gemini-3.1-Flash（专有）
GPT-5.4-Nano（专有）
Qwen3.5-Plus（开源）
DeepSeek-V4-Flash（开源）

核心结果

Skill-MAS-optimized 在四个模型上都取得了最高平均性能：

模型	最佳基线	Skill-MAS 初始	Skill-MAS 优化后	提升
Gemini-3.1-Flash	21.29	21.68	29.49	+38.5%
GPT-5.4-Nano	24.83	19.64	27.55	+11.0%
Qwen3.5-Plus	32.23	32.61	38.41	+19.2%
DeepSeek-V4-Flash	35.70	33.72	41.05	+15.0%

成本-性能权衡：

训练时 MAS：最便宜，但性能最差
推理时 MAS：性能较好，但最贵（每样本都重优化）
Skill-MAS：性能最高，成本适中（一次性进化元技能，之后零额外成本）

五、元技能的可迁移性：学到的不是 domain trick，是编排智慧

这是 Skill-MAS 最惊艳的发现。

他们做了三种迁移测试：

场景 A：跨模型迁移（同任务，不同 LLM）

在 GPT-5.4-Nano 上进化出的 Meta-Skill，直接给 Qwen3.5-Plus 用，性能从 18.45 提升到 24.40。

这意味着：Meta-Skill 学到的不是某个模型的"怪癖"，而是 任务无关的编排策略。

场景 B：跨任务迁移（不同任务，同 LLM）

在 BCP 上进化出的 Meta-Skill，给 VitaBench 用，从 0 提升到 13.10。反过来，VitaBench→BCP 从 0 提升到 23.21。

这说明：Meta-Skill 捕获的是 跨域的编排原则，不是特定任务的 hack。

场景 C：跨模型 + 跨任务（最难）

不同任务 AND 不同 LLM，仍然有正向迁移。

六、技能进化的真实轨迹：从混沌到秩序

论文展示了一个 BrowseComp-Plus 上的进化案例，Meta-Skill 的改进轨迹非常清晰：

轮次	模块一（What）	模块二（Who）	模块三（How）
初始	通用分解	基础角色	简单拓扑
1	增加证据权重、并行展开	—	—
2	—	加权满意度协议	—
3	—	—	回溯与动态重规划
4	—	—	链接验证任务
5（最佳）	—	—	合并节点重执行权限

进化路径：分解设计 → Agent 层面的认识论控制 → 系统层面的容错韧性

这不是随机搜索，是一个有方向的、分层的策略积累。

七、对 Agent 开发者的启示

1. 策略外化 > 参数内化

不要把编排策略埋在 prompt 工程或微调权重里。把它写成可版本控制的结构化文档（SKILL.md 风格），让策略本身成为一等公民。

2. 多轨迹采样是必需的

单条轨迹的成功可能是运气。K=5 条轨迹的统计量（均值、方差）才能告诉你"模型是真会了，还是蒙对了"。

3. 选择性反思 > 全面复盘

不是所有失败都值得分析。用"不确定度 × 困难度"做优先级排序，集中优化资源在最有信息量的任务上。

4. 跨层抽象

反思不能停留在"这个任务怎么做对了"，要提炼到"这类任务有什么通用原则"。这是 Skill-MAS 能实现跨任务迁移的关键。

八、局限与未来

当前限制：

选择性反思需要 ground-truth 标签（知道哪些轨迹是"高分"、"低分"）。未来可以引入 LLM-as-a-judge 做自监督评估。
多任务学习还没有系统优化，当前是简单混合。

更深层的问题：
Meta-Skill 的进化天花板在哪？如果所有编排策略都可以外化为自然语言，那 LLM 的"智能"到底在哪里——是在执行策略的能力，还是在生成策略的能力？

Skill-MAS 的回答是：两者都重要，但策略本身可以独立于执行者进化。这有点像是把"算法"从"硬件"中解耦出来。

参考论文

Lin et al. (2026). Skill-MAS: Evolving Meta-Skill for Automatic Multi-Agent Systems. Ant Group & HKUST(GZ), arXiv:2606.18837.

#SkillMAS #多Agent系统 #元技能 #蚂蚁集团 #Agent编排 #自动MAS #LLM #MetaSkill #Agent进化

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力