ST-EVO:当AI团队的座位图开始自己进化
想象你管理一支团队,任务是解决各种复杂问题。传统做法有三种:
第一种,你每次都安排同样的人坐同样的位置。A永远坐B旁边,B永远向C汇报。不管来的是什么任务,这套座位图不变。这就是静态拓扑(AutoGen、LangChain的固定chain/star/graph)。问题是:有的任务需要很多人脑暴,有的任务只需要两个人深挖——用同一套座位图,必然有浪费。
第二种,你每次根据任务性质重新安排座位。今天来的是数学题,就按数学专家组图;明天来的是编程题,就按代码审查组图。但座位图一旦定好,整个对话过程中不再变。这就是空间进化(GPTSwarm、G-Designer)。比第一种好,但问题是:任务进行到一半时,发现需要改方向,座位图却僵住了。
第三种,你让一个总协调员,根据对话进展决定谁什么时候说话。但协调员只管时序,不管谁和谁之间应该交流。这就是时间进化(AFlow、STEER)。比前两种灵活,但问题是:它只调度"什么时候说",不调度"谁和谁讨论"——协作的拓扑结构被忽略了。
ST-EVO 说的是:为什么非得二选一?座位图和说话顺序,本就应该一起进化。
---
核心武器:流匹配调度器(Flow-Matching Scheduler)
ST-EVO 的心脏是一个叫 Scheduler 的紧凑网络。它用了一个很妙的数学工具——流匹配(Flow Matching)。
传统生成模型(扩散模型、GAN)从随机噪声开始生成东西。但流匹配有一个特殊能力:它可以从任意给定的起点出发,"平滑地变形"到另一个目标分布。 就像你手里有一团黏土,你可以把它从任意形状揉成任意形状——不是从空气里捏出来,而是从现有形状开始变。
ST-EVO 把这个能力用在拓扑图上:
- 起点:当前对话轮次的通信拓扑(谁和谁连边)
- 目标:下一轮更适合的拓扑
- 流匹配:在两幅拓扑图之间,找到最平滑的"变形路径"
Scheduler 的架构很干净:
- GCN(图卷积网络):把当前拓扑编码成向量
- MLP-based Flow-Matching 网络:预测"变形速度",决定下一步拓扑怎么变
- 条件输入:任务类型(query embedding)+ 当前轮次位置(迭代编码),确保调度是任务感知、时序感知的
---
四个系统状态:当 Agent 团队"意见不合"时
ST-EVO 有一个很精巧的熵感知机制来判断系统当前处于什么状态。它用两个指标:
- Predictive Entropy (PE):模型预测的混乱程度——模型对答案有多不确定?
- VarEntropy (VE):多个 agent 之间不确定性的方差——是大家一起懵,还是有人很确定有人很慌?
| PE | VE | 状态 | 含义 |
|---|---|---|---|
| 低 | 低 | 高信心 | 团队一致,答案明确。拓扑可以精简,减少冗余通信。 |
| 高 | 高 | 冲突分歧 | 大家都有想法,但想法不一致。需要增加连接,让不同观点碰撞。 |
| 高 | 低 | 集体无知 | 所有人都不知道。需要引入新信息源,或增加思考深度。 |
| 低 | 高 | 过度自信异常 | 很罕见但危险——模型看起来有信心,但内部方差很大。可能是某个 agent 在"带节奏",需要警惕。 |
一个有趣的工程细节:计算熵的时候,只取top 10%-20% 的高熵 token。因为大多数 token(如标点、停用词)是"废话",高置信度,会稀释信号。只关注那些真正让模型"纠结"的 token——这是把注意力花在刀刃上。
---
经验回放:团队从历史中学聪明
ST-EVO 还做了一个检索增强的经验系统。每次成功调度后,系统会把这条轨迹存下来:
- 查询的 embedding(任务类型)
- 拓扑序列的隐向量 [L̂₁, L̂₂, ..., L̂_T]
- 计算成本、不确定性指标、访问频率
经验系统的淘汰策略也很实在: S(mᵢ) = (1 + log(αᵢ + 1)) / (cᵢ · |uᵢ| + ε)
- αᵢ:访问频率(越常用来越高分)
- cᵢ:计算成本(越贵越容易被淘汰)
- uᵢ:不确定性(效果越不稳定越容易被淘汰)
---
九个基准:5%-25% 的涨幅从哪来?
论文在9个基准上测试了 ST-EVO,覆盖通用推理、数学、代码、医学:
| 基准 | ST-EVO | 相比基线提升 |
|---|---|---|
| MMLU | 89.85% | +9.38% |
| GSM8K | 97.60% | +10.45% |
| HumanEval | 94.36% | +21.08% |
| DS-1000 | 58.65% | +20.25% |
| DDXPlus | 82.50% | +26.10% |
| AQuA | 86.56% | +17.29% |
HumanEval 和 DS-1000 上 +20% 的提升也很说明问题:代码生成不是"一个人写就行"的事,它需要需求分析、架构设计、代码实现、测试审查的迭代协作。ST-EVO 的拓扑进化让"测试审查 agent"在发现 bug 时,可以直接回连"代码实现 agent",而不是绕一圈经过"需求分析 agent"。
---
Token 刺客的反面:省了将近一半
多智能体系统有一个被低估的成本:每增加一条通信边,就增加一次 LLM 调用,Token 消耗指数级膨胀。 静态拓扑(如全连接图)的问题不是"慢",是"贵"。
ST-EVO 的 Token 消耗数据:
| 基准 | ST-EVO | 最佳基线 | 节省比例 |
|---|---|---|---|
| MMLU | 1.3M | 1.6M-1.9M | ~50% |
| GSM8K | 1.8M | 1.9M-3.3M | ~55% |
| HumanEval | 0.28M | 0.29M-0.38M | ~15-26% |
这和传统多智能体完全相反。传统做法是:人多力量大,全连接图最安全。ST-EVO 说的是:人多不一定力量大,连接对的人、在对的时间、用对的方式,才是力量大。
---
反直觉的鲁棒性:被攻击时反而更稳
论文做了一个很狠的测试:prompt injection 攻击。往输入里塞恶意指令,看系统会不会被骗。
结果:
- 静态系统(Chain、Star、Tree、Random Graph):性能下降 6.5%-12.7%
- 单一维度进化系统(G-Designer、STEER):下降 <5%
- ST-EVO:88.4% → 88.1%,几乎没变化
静态系统没有这种"断连自保"能力。星型拓扑里,中心节点被攻击,整个系统瘫痪。链式拓扑里,中间节点被攻击,前后信息全部失真。ST-EVO 的进化能力,让系统天然具有故障隔离的特性。
---
一句话
> ST-EVO 不是在优化多智能体的"对话内容",而是在优化多智能体的"对话结构"。它证明了:当 AI 团队协作时,谁和谁说话、什么时候说、什么时候不该说——这些结构性的决策,比每个人单独说了什么,更重要。流匹配让拓扑进化从"艺术"变成了"工程",而熵感知和经验回放,让这支团队学会了从自己的混乱中学习。
---
论文链接:https://arxiv.org/abs/2602.14681
#论文解读 #费曼风格 #AI #MultiAgent #多智能体 #STEVO #流匹配 #拓扑进化 #协同智能 #华东师范大学 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens