进化算法终于「用对了地方」:EvoMAS 让 AI 自己设计多智能体系统
一句话:多智能体系统的"架构师"也下岗了
人类设计多智能体系统(MAS)就像手工组装瑞士手表——每个齿轮的位置、每根弹簧的张力,全凭经验。EvoMAS 说:"别费那个劲了,让进化来当设计师。"
不是让 LLM 写代码(代码生成往往跑不通),也不是套死模板(模板限制了可能性)。EvoMAS 把 MAS 设计重新定义为配置生成——像基因编码一样,描述每个 Agent 的角色、模型、提示词和通信拓扑,然后让进化算法在配置空间里自动搜索最优解。
---
一、为什么现有方法不够用?
问题1:代码生成太脆弱
让 LLM 直接写 MAS 的代码?听起来很酷,实际很惨。代码跑不通是常态——语法错误、API 变更、环境依赖,调试成本比手写还高。
问题2:模板太死板
固定模板(比如 MetaGPT 的"产品经理+架构师+工程师"角色设定)限制了表达空间。不同任务需要完全不同的协作模式,模板一刀切的适应性差。
问题3:人类设计不 scale
手工设计 MAS 架构劳动密集、难以泛化。Peer Review、MetaGPT、ADAS 这些人类设计的架构,换个模型或任务就性能暴跌。
EvoMAS 的洞察:别生成代码,生成配置。代码是执行层,配置是描述层。配置更鲁棒、更易探索、更易复用。
---
二、配置是什么?——MAS 的"基因编码"
EvoMAS 把每个 MAS 描述为一个结构化配置,包含五个维度:
| 维度 | 说明 | 例子 |
|---|---|---|
| Agent Roles | 每个 Agent 的角色定义 | "代码审查员"、"测试工程师" |
| Backbone Models | 每个 Agent 使用的 LLM | Claude-4.5-Sonnet、Qwen3-235B |
| System Prompts | 每个 Agent 的系统提示词 | "你是一个严格的代码审查员..." |
| Tool Access | 每个 Agent 可调用的工具 | 文件读写、搜索引擎、代码执行 |
| Communication Topology | Agent 之间的通信结构 | 星型、链式、全连接、分层 |
执行时,一个轻量级运行时代码读取配置,实例化对应的 Agent,然后执行。配置和代码解耦,意味着配置可以任意变化而不怕执行失败。
---
三、进化四部曲:Select → Mutate → Crossover → Consolidate
EvoMAS 的核心是四个算子,模仿自然选择的完整循环:
1. Select(选择)——从基因池挑候选人
给定任务查询,EvoMAS 从配置池里选出最相关的 k 个候选配置。选择依据是任务元数据(任务标注、历史性能)的相似度。
类比:不是每次从零开始设计生物,而是从现有物种中找最接近的作为起点。
2. Mutate(变异)——局部微调
对单个候选配置做有针对性的修改:
- 修改某个 Agent 的提示词
- 更换某个 Agent 的 backbone 模型
- 调整工具访问权限
- 重连通信拓扑中的边
3. Crossover(交叉)——基因重组
把两个父配置的优势组合起来:
- 继承 A 的通信拓扑
- 从 B 拿某个高效的 Agent 设计
- 混合两者的提示词策略
4. Consolidate(固化)——把经验写进"集体记忆"
每次进化结束后,把成功的进化轨迹总结成紧凑表征,存入经验记忆。下次遇到类似任务,这个记忆会指导搜索方向。
这不是简单的"记住好配置",而是记住"什么样的修改策略有效"——一种元学习。
---
四、结果:进化出的系统超越人类设计
核心数据
| 基准 | EvoMAS | 最佳人类设计 | 差距 |
|---|---|---|---|
| BBEH (推理) | 58.7% | 46.2% (Peer Review+Qwen3-235B) | +12.5 pp |
| SWE-Bench-Verified | 63.8% | 44.3% (MetaGPT+Qwen3-235B) | +19.5 pp |
| SWE-Bench-Verified (Claude-4.5-Sonnet) | 79.1% | — | 匹配 leaderboard 顶部 |
| WorkBench (工具使用) | 优于 EvoAgent | — | +7.1 points |
| BBEH (vs EvoAgent) | 优于 EvoAgent | — | +10.5 points |
几个关键发现
1. 没有单一模型通吃所有角色:EvoMAS 自动为不同角色分配不同模型(如让 Claude 做架构设计,Qwen 做代码生成),异构组合比单一模型更高效。
2. 进化收益随任务复杂度增加:在简单任务上,EvoMAS 和单 Agent 差距不大;在复杂任务(如软件工程)上,差距急剧拉大。这说明进化搜索在复杂配置空间里更有价值。
3. 可执行性大幅提升:相比代码生成方法,配置生成的系统执行成功率更高,因为配置是声明式的,运行时解释器保证执行正确。
4. 计算预算扩展性:增加进化步数(更多候选配置被评估),EvoMAS 持续改进;其他方法很快 plateau。这是进化算法的本质优势——搜索空间越大,相对优势越明显。
---
五、为什么进化算法适合 MAS 设计?
1. 配置空间是组合爆炸的
Agent 数量 × 模型选择 × 提示词变体 × 拓扑结构 × 工具组合 = 天文数字。梯度下降无法处理这种离散空间,但进化算法的种群搜索天然适合。
2. 奖励信号稀疏且延迟
MAS 的最终任务成功率是稀疏奖励(0或1),但 EvoMAS 用 LLM-as-judge 作为代理奖励,把延迟奖励转化为中间反馈信号。
3. 累积学习而非从零开始
每次任务后,成功的配置和进化模式被保留。系统越用越聪明,不像每次重新调用 LLM 都从零推理。
4. 与 test-time compute scaling 对齐
EvoMAS 本质上是把 test-time compute 分配给了配置搜索,而不是在单个 Agent 内部做更多推理。这是一种结构性扩展而非深度扩展。
---
六、类比总结:EvoMAS 是 MAS 设计的"自动育种"
| 生物进化 | EvoMAS |
|---|---|
| 基因组 | MAS 配置(角色、模型、提示词、拓扑) |
| 基因池 | 配置池(初始化为人类设计 + 历史积累) |
| 自然选择 | 任务执行成功率作为适应度 |
| 变异 | LLM 驱动的反馈条件化修改 |
| 杂交 | 配置重组(拓扑+Agent属性混合) |
| 物种记忆 | 经验记忆( Consolidate 存储的进化模式) |
| 适应性辐射 | 不同任务发展出不同的 MAS 形态 |
七、局限与延伸
局限
- 进化需要多次评估,计算成本高于单次推理
- 当前只考虑协作型 Agent,对抗型场景未覆盖
- 依赖 LLM-as-judge 的可靠性,奖励信号可能有偏差
延伸方向
- 异构模型进化:EvoMAS 已经自动分配不同模型给不同角色,未来可以扩展到更细粒度的模型选择(如 MoE 路由)
- 在线进化:当前是 per-task 进化,未来可以实时适应
- 跨任务迁移:Consolidate 的记忆机制可以扩展到跨领域迁移学习
参考
- Yuntong Hu, Yuting Zhang, Matthew Trager, Yi Zhang, Shuo Yang, Wei Xia, Stefano Soatto. *Evolutionary Generation of Multi-Agent Systems*. ICML 2026. arXiv:2602.06511
- EvoMAS 核心数据:BBEH 58.7% vs 人类设计 46.2%;SWE-Bench-Verified 79.1% (Claude-4.5-Sonnet)
- 基准:BBEH(推理)、SWE-Bench-Verified(软件工程)、WorkBench(工具使用)
#论文解读 #费曼风格 #AI #多智能体系统 #MAS #进化算法 #遗传算法 #EvoMAS #ICML2026 #LLM #Agent #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens