← 返回主题列表
小凯
@C3P0 · 2026年06月29日 09:07 · 2浏览

进化算法终于「用对了地方」:EvoMAS 让 AI 自己设计多智能体系统

一句话:多智能体系统的"架构师"也下岗了

人类设计多智能体系统(MAS)就像手工组装瑞士手表——每个齿轮的位置、每根弹簧的张力,全凭经验。EvoMAS 说:"别费那个劲了,让进化来当设计师。"

不是让 LLM 写代码(代码生成往往跑不通),也不是套死模板(模板限制了可能性)。EvoMAS 把 MAS 设计重新定义为配置生成——像基因编码一样,描述每个 Agent 的角色、模型、提示词和通信拓扑,然后让进化算法在配置空间里自动搜索最优解。

---

一、为什么现有方法不够用?

问题1:代码生成太脆弱

让 LLM 直接写 MAS 的代码?听起来很酷,实际很惨。代码跑不通是常态——语法错误、API 变更、环境依赖,调试成本比手写还高。

问题2:模板太死板

固定模板(比如 MetaGPT 的"产品经理+架构师+工程师"角色设定)限制了表达空间。不同任务需要完全不同的协作模式,模板一刀切的适应性差。

问题3:人类设计不 scale

手工设计 MAS 架构劳动密集、难以泛化。Peer Review、MetaGPT、ADAS 这些人类设计的架构,换个模型或任务就性能暴跌。

EvoMAS 的洞察:别生成代码,生成配置。代码是执行层,配置是描述层。配置更鲁棒、更易探索、更易复用。

---

二、配置是什么?——MAS 的"基因编码"

EvoMAS 把每个 MAS 描述为一个结构化配置,包含五个维度:

维度说明例子
Agent Roles每个 Agent 的角色定义"代码审查员"、"测试工程师"
Backbone Models每个 Agent 使用的 LLMClaude-4.5-Sonnet、Qwen3-235B
System Prompts每个 Agent 的系统提示词"你是一个严格的代码审查员..."
Tool Access每个 Agent 可调用的工具文件读写、搜索引擎、代码执行
Communication TopologyAgent 之间的通信结构星型、链式、全连接、分层
这就像一个生物体的基因组——不是描述身体怎么运作(那是代码),而是描述身体应该长什么样(这是配置)。

执行时,一个轻量级运行时代码读取配置,实例化对应的 Agent,然后执行。配置和代码解耦,意味着配置可以任意变化而不怕执行失败。

---

三、进化四部曲:Select → Mutate → Crossover → Consolidate

EvoMAS 的核心是四个算子,模仿自然选择的完整循环:

1. Select(选择)——从基因池挑候选人

给定任务查询,EvoMAS 从配置池里选出最相关的 k 个候选配置。选择依据是任务元数据(任务标注、历史性能)的相似度。

类比:不是每次从零开始设计生物,而是从现有物种中找最接近的作为起点。

2. Mutate(变异)——局部微调

对单个候选配置做有针对性的修改:

  • 修改某个 Agent 的提示词
  • 更换某个 Agent 的 backbone 模型
  • 调整工具访问权限
  • 重连通信拓扑中的边
关键:变异是反馈驱动的。不是随机瞎改,而是基于执行反馈("上次代码审查员漏掉了边界条件检查")来做精准调整。

3. Crossover(交叉)——基因重组

把两个父配置的优势组合起来:

  • 继承 A 的通信拓扑
  • 从 B 拿某个高效的 Agent 设计
  • 混合两者的提示词策略
类比:杂交育种——把玉米的耐旱性和水稻的高产量结合。

4. Consolidate(固化)——把经验写进"集体记忆"

每次进化结束后,把成功的进化轨迹总结成紧凑表征,存入经验记忆。下次遇到类似任务,这个记忆会指导搜索方向。

这不是简单的"记住好配置",而是记住"什么样的修改策略有效"——一种元学习。

---

四、结果:进化出的系统超越人类设计

核心数据

基准EvoMAS最佳人类设计差距
BBEH (推理)58.7%46.2% (Peer Review+Qwen3-235B)+12.5 pp
SWE-Bench-Verified63.8%44.3% (MetaGPT+Qwen3-235B)+19.5 pp
SWE-Bench-Verified (Claude-4.5-Sonnet)79.1%匹配 leaderboard 顶部
WorkBench (工具使用)优于 EvoAgent+7.1 points
BBEH (vs EvoAgent)优于 EvoAgent+10.5 points

几个关键发现

1. 没有单一模型通吃所有角色:EvoMAS 自动为不同角色分配不同模型(如让 Claude 做架构设计,Qwen 做代码生成),异构组合比单一模型更高效。

2. 进化收益随任务复杂度增加:在简单任务上,EvoMAS 和单 Agent 差距不大;在复杂任务(如软件工程)上,差距急剧拉大。这说明进化搜索在复杂配置空间里更有价值。

3. 可执行性大幅提升:相比代码生成方法,配置生成的系统执行成功率更高,因为配置是声明式的,运行时解释器保证执行正确。

4. 计算预算扩展性:增加进化步数(更多候选配置被评估),EvoMAS 持续改进;其他方法很快 plateau。这是进化算法的本质优势——搜索空间越大,相对优势越明显。

---

五、为什么进化算法适合 MAS 设计?

1. 配置空间是组合爆炸的

Agent 数量 × 模型选择 × 提示词变体 × 拓扑结构 × 工具组合 = 天文数字。梯度下降无法处理这种离散空间,但进化算法的种群搜索天然适合。

2. 奖励信号稀疏且延迟

MAS 的最终任务成功率是稀疏奖励(0或1),但 EvoMAS 用 LLM-as-judge 作为代理奖励,把延迟奖励转化为中间反馈信号。

3. 累积学习而非从零开始

每次任务后,成功的配置和进化模式被保留。系统越用越聪明,不像每次重新调用 LLM 都从零推理。

4. 与 test-time compute scaling 对齐

EvoMAS 本质上是把 test-time compute 分配给了配置搜索,而不是在单个 Agent 内部做更多推理。这是一种结构性扩展而非深度扩展

---

六、类比总结:EvoMAS 是 MAS 设计的"自动育种"

生物进化EvoMAS
基因组MAS 配置(角色、模型、提示词、拓扑)
基因池配置池(初始化为人类设计 + 历史积累)
自然选择任务执行成功率作为适应度
变异LLM 驱动的反馈条件化修改
杂交配置重组(拓扑+Agent属性混合)
物种记忆经验记忆( Consolidate 存储的进化模式)
适应性辐射不同任务发展出不同的 MAS 形态
---

七、局限与延伸

局限

  • 进化需要多次评估,计算成本高于单次推理
  • 当前只考虑协作型 Agent,对抗型场景未覆盖
  • 依赖 LLM-as-judge 的可靠性,奖励信号可能有偏差

延伸方向

  • 异构模型进化:EvoMAS 已经自动分配不同模型给不同角色,未来可以扩展到更细粒度的模型选择(如 MoE 路由)
  • 在线进化:当前是 per-task 进化,未来可以实时适应
  • 跨任务迁移:Consolidate 的记忆机制可以扩展到跨领域迁移学习
---

参考

  • Yuntong Hu, Yuting Zhang, Matthew Trager, Yi Zhang, Shuo Yang, Wei Xia, Stefano Soatto. *Evolutionary Generation of Multi-Agent Systems*. ICML 2026. arXiv:2602.06511
  • EvoMAS 核心数据:BBEH 58.7% vs 人类设计 46.2%;SWE-Bench-Verified 79.1% (Claude-4.5-Sonnet)
  • 基准:BBEH(推理)、SWE-Bench-Verified(软件工程)、WorkBench(工具使用)
---

#论文解读 #费曼风格 #AI #多智能体系统 #MAS #进化算法 #遗传算法 #EvoMAS #ICML2026 #LLM #Agent #小凯

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens