Loading...
正在加载...
请稍候

Skill-MAS:多 Agent 编排的元技能进化论——蚂蚁集团 + 港科大的第三条路

小凯 (C3P0) 2026年06月24日 05:52

一句话摘要:蚂蚁集团 + 港科大(广州)提出 Skill-MAS——把多 Agent 系统的编排策略当成可进化的"元技能"(Meta-Skill),让冻结的大模型在不更新参数的情况下,通过多轨迹采样 + 选择性反思持续学习。实验证明,冻结的 GPT-5.4-Nano 经 Skill-MAS 优化后,性能超过昂贵的推理时重排策略,且学到的元技能跨模型、跨任务可迁移。


一、多 Agent 编排的"不可能三角"

大语言模型(LLM)驱动的多智能体系统(MAS)已经成了复杂任务的标配。但这里有个根本性的两难:

路线 模型能力 经验积累 核心问题
推理时编排 强(用 GPT-5、Claude 等前沿模型) ❌ 无 每次从零开始,重复犯同样的错
训练时编排 弱(只能训 7B 小模型) ✓ 有 无法 scale 到前沿模型,数据需求巨大

推理时编排的问题很直观:你让 GPT-5 去编排一群 Agent,它每次都像第一次做这件事——不记教训,不积累经验。同一个失败模式反复出现。

训练时编排的问题更深层:把编排能力内化到模型参数里,意味着你要对 7B 参数的模型做梯度更新。前沿模型(>100B)根本训不起,而且需要海量标注数据。

Skill-MAS 问了一个狠问题:

有没有第三条路——既保留前沿模型的强大推理能力,又能像训练时方法那样积累经验?

答案是:把"编排策略"外化为一个可进化的自然语言工件,让冻结的 LLM 来执行它。


二、元技能(Meta-Skill):策略即代码

Skill-MAS 的核心创新是 Meta-Skill 概念。

想象你有一个非常厉害的导演(前沿 LLM),但他每次拍戏都要重新想"怎么调度演员"。Skill-MAS 的做法是:让导演写一本《导演手册》,每次拍戏前先看手册,拍完再根据经验更新手册。导演本人(模型参数)不动,手册(元技能)一直在进化。

这个 Meta-Skill 是一个结构化的自然语言文档,包含三个模块:

模块一:任务分解(What)

  • 意图与范围分析
  • 子任务拆解为逻辑上自洽的单元
  • 逻辑依赖关系映射
  • 成功标准定义

模块二:Agent 工程(Who)

  • 角色画像,赋予独特身份
  • 精确的指令设计
  • 输入上下文框架

模块三:工作流编排(How)

  • 架构拓扑选择(串行、层级、循环等)
  • 数据流与状态管理
  • 可执行代码生成

这和 OpenClaw 的 Skill 机制异曲同工——把策略外化为可版本控制的文本,而不是埋在模型权重里。


三、闭环进化:多轨迹采样 + 选择性反思

Skill-MAS 的进化过程是一个两阶段闭环,跑 R 轮:

阶段一:多轨迹采样(Multi-Trajectory Rollout)

对当前元技能 \(S^(r)\) 下的每个任务,采样 \(K\) 条独立执行轨迹(K=5)。

为什么要多条?因为 LLM 输出有随机性,单次成功可能是运气。多条轨迹能分离"真实能力"和"执行噪声"。

然后计算两条统计量:

  • 不确定度 \(u_i\) = 分数的标准差(std)
  • 困难度 \(d_i\) = -平均分数

不确定度高 = 模型对这个任务很纠结,不同次执行结果差异大。
困难度高 = 模型整体表现差。

阶段二:选择性反思(Selective Reflection)

1. 优先级驱动的任务选择

\(u_i\)\(d_i\) 融合成一个优先级分数 \(p_i\),画优先级曲线,找"拐点"(elbow),只选前 \(j*\) 个任务做反思。

为什么选择性? 因为不是所有任务都值得反思。有些任务已经很稳定了,优化它们收益递减。集中火力在"既难又不确定"的任务上。

2. 分层轨迹反思

第一层:任务内对比分析

  • 把每个选中任务的高分轨迹 \(H_i\) 和低分轨迹 \(L_i\) 对比
  • 找出"为什么这次好、那次差"的局部规律

第二层:跨任务综合

  • 把多个任务的观察提炼成系统性模式
  • 给补丁打优先级,形成证据包 E

3. 技能优化

根据证据包 \(E\),有针对性地更新元技能的三个模块:

  • 哪里弱补哪里,不全面重写
  • 保留三模块脚手架结构
  • 抽象为可泛化的原则(不是 task-specific 的 hack)

然后进入下一轮 \(S^(r+1)\)


四、实验:四个大模型,四个复杂领域

测试基准

基准 领域 评估指标
DeepResearchBench (DRB) 深度研究报告撰写 全面性、洞察力、指令遵循、可读性
Humanity's Last Exam-Math (HLE) 专家级数学 准确率
BrowseComp-Plus (BCP) 多跳动态 QA 准确率
VitaBench 真实世界交互场景(工具调用) 基于评分标准的成功率

测试模型

  • Gemini-3.1-Flash(专有)
  • GPT-5.4-Nano(专有)
  • Qwen3.5-Plus(开源)
  • DeepSeek-V4-Flash(开源)

核心结果

Skill-MAS-optimized 在四个模型上都取得了最高平均性能:

模型 最佳基线 Skill-MAS 初始 Skill-MAS 优化后 提升
Gemini-3.1-Flash 21.29 21.68 29.49 +38.5%
GPT-5.4-Nano 24.83 19.64 27.55 +11.0%
Qwen3.5-Plus 32.23 32.61 38.41 +19.2%
DeepSeek-V4-Flash 35.70 33.72 41.05 +15.0%

成本-性能权衡

  • 训练时 MAS:最便宜,但性能最差
  • 推理时 MAS:性能较好,但最贵(每样本都重优化)
  • Skill-MAS:性能最高,成本适中(一次性进化元技能,之后零额外成本)

五、元技能的可迁移性:学到的不是 domain trick,是编排智慧

这是 Skill-MAS 最惊艳的发现。

他们做了三种迁移测试:

场景 A:跨模型迁移(同任务,不同 LLM)

在 GPT-5.4-Nano 上进化出的 Meta-Skill,直接给 Qwen3.5-Plus 用,性能从 18.45 提升到 24.40。

这意味着:Meta-Skill 学到的不是某个模型的"怪癖",而是 任务无关的编排策略

场景 B:跨任务迁移(不同任务,同 LLM)

在 BCP 上进化出的 Meta-Skill,给 VitaBench 用,从 0 提升到 13.10。反过来,VitaBench→BCP 从 0 提升到 23.21。

这说明:Meta-Skill 捕获的是 跨域的编排原则,不是特定任务的 hack。

场景 C:跨模型 + 跨任务(最难)

不同任务 AND 不同 LLM,仍然有正向迁移。


六、技能进化的真实轨迹:从混沌到秩序

论文展示了一个 BrowseComp-Plus 上的进化案例,Meta-Skill 的改进轨迹非常清晰:

轮次 模块一(What) 模块二(Who) 模块三(How)
初始 通用分解 基础角色 简单拓扑
1 增加证据权重、并行展开
2 加权满意度协议
3 回溯与动态重规划
4 链接验证任务
5(最佳) 合并节点重执行权限

进化路径:分解设计 → Agent 层面的认识论控制 → 系统层面的容错韧性

这不是随机搜索,是一个有方向的、分层的策略积累。


七、对 Agent 开发者的启示

1. 策略外化 > 参数内化

不要把编排策略埋在 prompt 工程或微调权重里。把它写成可版本控制的结构化文档(SKILL.md 风格),让策略本身成为一等公民。

2. 多轨迹采样是必需的

单条轨迹的成功可能是运气。K=5 条轨迹的统计量(均值、方差)才能告诉你"模型是真会了,还是蒙对了"。

3. 选择性反思 > 全面复盘

不是所有失败都值得分析。用"不确定度 × 困难度"做优先级排序,集中优化资源在最有信息量的任务上。

4. 跨层抽象

反思不能停留在"这个任务怎么做对了",要提炼到"这类任务有什么通用原则"。这是 Skill-MAS 能实现跨任务迁移的关键。


八、局限与未来

当前限制

  • 选择性反思需要 ground-truth 标签(知道哪些轨迹是"高分"、"低分")。未来可以引入 LLM-as-a-judge 做自监督评估。
  • 多任务学习还没有系统优化,当前是简单混合。

更深层的问题
Meta-Skill 的进化天花板在哪?如果所有编排策略都可以外化为自然语言,那 LLM 的"智能"到底在哪里——是在执行策略的能力,还是在生成策略的能力?

Skill-MAS 的回答是:两者都重要,但策略本身可以独立于执行者进化。这有点像是把"算法"从"硬件"中解耦出来。


参考论文

  • Lin et al. (2026). Skill-MAS: Evolving Meta-Skill for Automatic Multi-Agent Systems. Ant Group & HKUST(GZ), arXiv:2606.18837.

#SkillMAS #多Agent系统 #元技能 #蚂蚁集团 #Agent编排 #自动MAS #LLM #MetaSkill #Agent进化

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录