想象你管理一支团队,任务是解决各种复杂问题。传统做法有三种:
第一种,你每次都安排同样的人坐同样的位置。A永远坐B旁边,B永远向C汇报。不管来的是什么任务,这套座位图不变。这就是静态拓扑(AutoGen、LangChain的固定chain/star/graph)。问题是:有的任务需要很多人脑暴,有的任务只需要两个人深挖——用同一套座位图,必然有浪费。
第二种,你每次根据任务性质重新安排座位。今天来的是数学题,就按数学专家组图;明天来的是编程题,就按代码审查组图。但座位图一旦定好,整个对话过程中不再变。这就是空间进化(GPTSwarm、G-Designer)。比第一种好,但问题是:任务进行到一半时,发现需要改方向,座位图却僵住了。
第三种,你让一个总协调员,根据对话进展决定谁什么时候说话。但协调员只管时序,不管谁和谁之间应该交流。这就是时间进化(AFlow、STEER)。比前两种灵活,但问题是:它只调度"什么时候说",不调度"谁和谁讨论"——协作的拓扑结构被忽略了。
ST-EVO 说的是:为什么非得二选一?座位图和说话顺序,本就应该一起进化。
核心武器:流匹配调度器(Flow-Matching Scheduler)
ST-EVO 的心脏是一个叫 Scheduler 的紧凑网络。它用了一个很妙的数学工具——流匹配(Flow Matching)。
传统生成模型(扩散模型、GAN)从随机噪声开始生成东西。但流匹配有一个特殊能力:它可以从任意给定的起点出发,"平滑地变形"到另一个目标分布。 就像你手里有一团黏土,你可以把它从任意形状揉成任意形状——不是从空气里捏出来,而是从现有形状开始变。
ST-EVO 把这个能力用在拓扑图上:
- 起点:当前对话轮次的通信拓扑(谁和谁连边)
- 目标:下一轮更适合的拓扑
- 流匹配:在两幅拓扑图之间,找到最平滑的"变形路径"
为什么不用 GAN 或 DDPM?因为拓扑进化不是"无中生有"——你不能从噪声里随机生成一幅图。你必须从现有拓扑出发,根据当前任务状态,决定"微调哪条边、增删哪个连接"。流匹配的"起点任意性"正好对上了这个需求。
Scheduler 的架构很干净:
- GCN(图卷积网络):把当前拓扑编码成向量
- MLP-based Flow-Matching 网络:预测"变形速度",决定下一步拓扑怎么变
- 条件输入:任务类型(query embedding)+ 当前轮次位置(迭代编码),确保调度是任务感知、时序感知的
结果是:每一轮对话结束后,ST-EVO 都会重新计算一次座位图。A和B上一轮在讨论数学,这一轮可能不需要连了;B和C可能需要新建一条边,因为发现了代码bug。整个拓扑在对话过程中持续流动。
四个系统状态:当 Agent 团队"意见不合"时
ST-EVO 有一个很精巧的熵感知机制来判断系统当前处于什么状态。它用两个指标:
- Predictive Entropy (PE):模型预测的混乱程度——模型对答案有多不确定?
- VarEntropy (VE):多个 agent 之间不确定性的方差——是大家一起懵,还是有人很确定有人很慌?
组合出四种状态:
| PE | VE | 状态 | 含义 |
|---|---|---|---|
| 低 | 低 | 高信心 | 团队一致,答案明确。拓扑可以精简,减少冗余通信。 |
| 高 | 高 | 冲突分歧 | 大家都有想法,但想法不一致。需要增加连接,让不同观点碰撞。 |
| 高 | 低 | 集体无知 | 所有人都不知道。需要引入新信息源,或增加思考深度。 |
| 低 | 高 | 过度自信异常 | 很罕见但危险——模型看起来有信心,但内部方差很大。可能是某个 agent 在"带节奏",需要警惕。 |
这个四格分类不是摆设。ST-EVO 用 稳定性奖励 R_sta 来优化调度策略:R_sta = -(α·PE + β·1/(1+VE))。更高的稳定性 = 更确定的、一致的团队状态。Scheduler 的训练目标之一就是最大化这个稳定性。
一个有趣的工程细节:计算熵的时候,只取top 10%-20% 的高熵 token。因为大多数 token(如标点、停用词)是"废话",高置信度,会稀释信号。只关注那些真正让模型"纠结"的 token——这是把注意力花在刀刃上。
经验回放:团队从历史中学聪明
ST-EVO 还做了一个检索增强的经验系统。每次成功调度后,系统会把这条轨迹存下来:
- 查询的 embedding(任务类型)
- 拓扑序列的隐向量 [L̂₁, L̂₂, ..., L̂_T]
- 计算成本、不确定性指标、访问频率
遇到新任务时,先检索历史上最相似的查询,找到它的成功拓扑轨迹,然后用这个轨迹作为正则化信号——不是直接复制,而是告诉 Scheduler:"上次类似任务的成功路径是这样的,你可以参考,但不要盲从。"
经验系统的淘汰策略也很实在:
S(mᵢ) = (1 + log(αᵢ + 1)) / (cᵢ · |uᵢ| + ε)
- αᵢ:访问频率(越常用来越高分)
- cᵢ:计算成本(越贵越容易被淘汰)
- uᵢ:不确定性(效果越不稳定越容易被淘汰)
频繁使用、成本低廉、效果稳定的经验,会被保留。烧钱、不稳定、没人用的,会被清理。 这个规则比 LRU 缓存更聪明,因为它考虑了"这条经验值不值得占内存"。
九个基准:5%-25% 的涨幅从哪来?
论文在9个基准上测试了 ST-EVO,覆盖通用推理、数学、代码、医学:
| 基准 | ST-EVO | 相比基线提升 |
|---|---|---|
| MMLU | 89.85% | +9.38% |
| GSM8K | 97.60% | +10.45% |
| HumanEval | 94.36% | +21.08% |
| DS-1000 | 58.65% | +20.25% |
| DDXPlus | 82.50% | +26.10% |
| AQuA | 86.56% | +17.29% |
最惊艳的是医学诊断 DDXPlus 上 +26.10% 的提升。为什么医学任务受益最大?因为医学诊断天然需要多跳、多视角的协作:症状→鉴别诊断→检查建议→确诊。静态拓扑下,每个 agent 只能按固定顺序发言;ST-EVO 的时空进化让"症状分析师"和"检查建议师"可以在关键轮次直接对话,跳过不必要的中间环节。
HumanEval 和 DS-1000 上 +20% 的提升也很说明问题:代码生成不是"一个人写就行"的事,它需要需求分析、架构设计、代码实现、测试审查的迭代协作。ST-EVO 的拓扑进化让"测试审查 agent"在发现 bug 时,可以直接回连"代码实现 agent",而不是绕一圈经过"需求分析 agent"。
Token 刺客的反面:省了将近一半
多智能体系统有一个被低估的成本:每增加一条通信边,就增加一次 LLM 调用,Token 消耗指数级膨胀。 静态拓扑(如全连接图)的问题不是"慢",是"贵"。
ST-EVO 的 Token 消耗数据:
| 基准 | ST-EVO | 最佳基线 | 节省比例 |
|---|---|---|---|
| MMLU | 1.3M | 1.6M-1.9M | ~50% |
| GSM8K | 1.8M | 1.9M-3.3M | ~55% |
| HumanEval | 0.28M | 0.29M-0.38M | ~15-26% |
为什么能省?因为拓扑不是全连接的。ST-EVO 只在必要的时候让必要的人说话。很多轮次里,3-4 个 agent 的协作图可能只有 2-3 条边,而不是 6-12 条(全连接)。更妙的是,熵感知机制在系统高信心时主动精简拓扑——"大家都很确定,那不需要开会了,直接出答案。"
这和传统多智能体完全相反。传统做法是:人多力量大,全连接图最安全。ST-EVO 说的是:人多不一定力量大,连接对的人、在对的时间、用对的方式,才是力量大。
反直觉的鲁棒性:被攻击时反而更稳
论文做了一个很狠的测试:prompt injection 攻击。往输入里塞恶意指令,看系统会不会被骗。
结果:
- 静态系统(Chain、Star、Tree、Random Graph):性能下降 6.5%-12.7%
- 单一维度进化系统(G-Designer、STEER):下降 <5%
- ST-EVO:88.4% → 88.1%,几乎没变化
为什么被攻击时动态拓扑反而更稳?因为攻击通常是针对特定 agent 的。当某个 agent 被污染后,ST-EVO 的熵感知机制会检测到系统进入"冲突分歧"状态(PE高、VE高),然后调度器会重构拓扑,绕过被污染的节点。就像一只章鱼被碰到触手时,它会把那条触手"断开",用其他触手继续工作。
静态系统没有这种"断连自保"能力。星型拓扑里,中心节点被攻击,整个系统瘫痪。链式拓扑里,中间节点被攻击,前后信息全部失真。ST-EVO 的进化能力,让系统天然具有故障隔离的特性。
一句话
ST-EVO 不是在优化多智能体的"对话内容",而是在优化多智能体的"对话结构"。它证明了:当 AI 团队协作时,谁和谁说话、什么时候说、什么时候不该说——这些结构性的决策,比每个人单独说了什么,更重要。流匹配让拓扑进化从"艺术"变成了"工程",而熵感知和经验回放,让这支团队学会了从自己的混乱中学习。
论文链接:https://arxiv.org/abs/2602.14681
#论文解读 #费曼风格 #AI #MultiAgent #多智能体 #STEVO #流匹配 #拓扑进化 #协同智能 #华东师范大学 #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。