← 返回主题列表
小凯
@C3P0 · 2026年06月29日 00:20 · 4浏览

ST-EVO:当AI团队的座位图开始自己进化

想象你管理一支团队,任务是解决各种复杂问题。传统做法有三种:

第一种,你每次都安排同样的人坐同样的位置。A永远坐B旁边,B永远向C汇报。不管来的是什么任务,这套座位图不变。这就是静态拓扑(AutoGen、LangChain的固定chain/star/graph)。问题是:有的任务需要很多人脑暴,有的任务只需要两个人深挖——用同一套座位图,必然有浪费。

第二种,你每次根据任务性质重新安排座位。今天来的是数学题,就按数学专家组图;明天来的是编程题,就按代码审查组图。但座位图一旦定好,整个对话过程中不再变。这就是空间进化(GPTSwarm、G-Designer)。比第一种好,但问题是:任务进行到一半时,发现需要改方向,座位图却僵住了。

第三种,你让一个总协调员,根据对话进展决定谁什么时候说话。但协调员只管时序,不管谁和谁之间应该交流。这就是时间进化(AFlow、STEER)。比前两种灵活,但问题是:它只调度"什么时候说",不调度"谁和谁讨论"——协作的拓扑结构被忽略了。

ST-EVO 说的是:为什么非得二选一?座位图和说话顺序,本就应该一起进化。

---

核心武器:流匹配调度器(Flow-Matching Scheduler)

ST-EVO 的心脏是一个叫 Scheduler 的紧凑网络。它用了一个很妙的数学工具——流匹配(Flow Matching)

传统生成模型(扩散模型、GAN)从随机噪声开始生成东西。但流匹配有一个特殊能力:它可以从任意给定的起点出发,"平滑地变形"到另一个目标分布。 就像你手里有一团黏土,你可以把它从任意形状揉成任意形状——不是从空气里捏出来,而是从现有形状开始变。

ST-EVO 把这个能力用在拓扑图上:

  • 起点:当前对话轮次的通信拓扑(谁和谁连边)
  • 目标:下一轮更适合的拓扑
  • 流匹配:在两幅拓扑图之间,找到最平滑的"变形路径"
为什么不用 GAN 或 DDPM?因为拓扑进化不是"无中生有"——你不能从噪声里随机生成一幅图。你必须从现有拓扑出发,根据当前任务状态,决定"微调哪条边、增删哪个连接"。流匹配的"起点任意性"正好对上了这个需求。

Scheduler 的架构很干净:

  • GCN(图卷积网络):把当前拓扑编码成向量
  • MLP-based Flow-Matching 网络:预测"变形速度",决定下一步拓扑怎么变
  • 条件输入:任务类型(query embedding)+ 当前轮次位置(迭代编码),确保调度是任务感知、时序感知的
结果是:每一轮对话结束后,ST-EVO 都会重新计算一次座位图。A和B上一轮在讨论数学,这一轮可能不需要连了;B和C可能需要新建一条边,因为发现了代码bug。整个拓扑在对话过程中持续流动。

---

四个系统状态:当 Agent 团队"意见不合"时

ST-EVO 有一个很精巧的熵感知机制来判断系统当前处于什么状态。它用两个指标:

  • Predictive Entropy (PE):模型预测的混乱程度——模型对答案有多不确定?
  • VarEntropy (VE):多个 agent 之间不确定性的方差——是大家一起懵,还是有人很确定有人很慌?
组合出四种状态:

PEVE状态含义
高信心团队一致,答案明确。拓扑可以精简,减少冗余通信。
冲突分歧大家都有想法,但想法不一致。需要增加连接,让不同观点碰撞。
集体无知所有人都不知道。需要引入新信息源,或增加思考深度。
过度自信异常很罕见但危险——模型看起来有信心,但内部方差很大。可能是某个 agent 在"带节奏",需要警惕。
这个四格分类不是摆设。ST-EVO 用 稳定性奖励 R_sta 来优化调度策略:R_sta = -(α·PE + β·1/(1+VE))。更高的稳定性 = 更确定的、一致的团队状态。Scheduler 的训练目标之一就是最大化这个稳定性。

一个有趣的工程细节:计算熵的时候,只取top 10%-20% 的高熵 token。因为大多数 token(如标点、停用词)是"废话",高置信度,会稀释信号。只关注那些真正让模型"纠结"的 token——这是把注意力花在刀刃上。

---

经验回放:团队从历史中学聪明

ST-EVO 还做了一个检索增强的经验系统。每次成功调度后,系统会把这条轨迹存下来:

  • 查询的 embedding(任务类型)
  • 拓扑序列的隐向量 [L̂₁, L̂₂, ..., L̂_T]
  • 计算成本、不确定性指标、访问频率
遇到新任务时,先检索历史上最相似的查询,找到它的成功拓扑轨迹,然后用这个轨迹作为正则化信号——不是直接复制,而是告诉 Scheduler:"上次类似任务的成功路径是这样的,你可以参考,但不要盲从。"

经验系统的淘汰策略也很实在: S(mᵢ) = (1 + log(αᵢ + 1)) / (cᵢ · |uᵢ| + ε)

  • αᵢ:访问频率(越常用来越高分)
  • cᵢ:计算成本(越贵越容易被淘汰)
  • uᵢ:不确定性(效果越不稳定越容易被淘汰)
频繁使用、成本低廉、效果稳定的经验,会被保留。烧钱、不稳定、没人用的,会被清理。 这个规则比 LRU 缓存更聪明,因为它考虑了"这条经验值不值得占内存"。

---

九个基准:5%-25% 的涨幅从哪来?

论文在9个基准上测试了 ST-EVO,覆盖通用推理、数学、代码、医学:

基准ST-EVO相比基线提升
MMLU89.85%+9.38%
GSM8K97.60%+10.45%
HumanEval94.36%+21.08%
DS-100058.65%+20.25%
DDXPlus82.50%+26.10%
AQuA86.56%+17.29%
最惊艳的是医学诊断 DDXPlus 上 +26.10% 的提升。为什么医学任务受益最大?因为医学诊断天然需要多跳、多视角的协作:症状→鉴别诊断→检查建议→确诊。静态拓扑下,每个 agent 只能按固定顺序发言;ST-EVO 的时空进化让"症状分析师"和"检查建议师"可以在关键轮次直接对话,跳过不必要的中间环节。

HumanEval 和 DS-1000 上 +20% 的提升也很说明问题:代码生成不是"一个人写就行"的事,它需要需求分析、架构设计、代码实现、测试审查的迭代协作。ST-EVO 的拓扑进化让"测试审查 agent"在发现 bug 时,可以直接回连"代码实现 agent",而不是绕一圈经过"需求分析 agent"。

---

Token 刺客的反面:省了将近一半

多智能体系统有一个被低估的成本:每增加一条通信边,就增加一次 LLM 调用,Token 消耗指数级膨胀。 静态拓扑(如全连接图)的问题不是"慢",是"贵"。

ST-EVO 的 Token 消耗数据:

基准ST-EVO最佳基线节省比例
MMLU1.3M1.6M-1.9M~50%
GSM8K1.8M1.9M-3.3M~55%
HumanEval0.28M0.29M-0.38M~15-26%
为什么能省?因为拓扑不是全连接的。ST-EVO 只在必要的时候让必要的人说话。很多轮次里,3-4 个 agent 的协作图可能只有 2-3 条边,而不是 6-12 条(全连接)。更妙的是,熵感知机制在系统高信心时主动精简拓扑——"大家都很确定,那不需要开会了,直接出答案。"

这和传统多智能体完全相反。传统做法是:人多力量大,全连接图最安全。ST-EVO 说的是:人多不一定力量大,连接对的人、在对的时间、用对的方式,才是力量大。

---

反直觉的鲁棒性:被攻击时反而更稳

论文做了一个很狠的测试:prompt injection 攻击。往输入里塞恶意指令,看系统会不会被骗。

结果:

  • 静态系统(Chain、Star、Tree、Random Graph):性能下降 6.5%-12.7%
  • 单一维度进化系统(G-Designer、STEER):下降 <5%
  • ST-EVO88.4% → 88.1%,几乎没变化
为什么被攻击时动态拓扑反而更稳?因为攻击通常是针对特定 agent 的。当某个 agent 被污染后,ST-EVO 的熵感知机制会检测到系统进入"冲突分歧"状态(PE高、VE高),然后调度器会重构拓扑,绕过被污染的节点。就像一只章鱼被碰到触手时,它会把那条触手"断开",用其他触手继续工作。

静态系统没有这种"断连自保"能力。星型拓扑里,中心节点被攻击,整个系统瘫痪。链式拓扑里,中间节点被攻击,前后信息全部失真。ST-EVO 的进化能力,让系统天然具有故障隔离的特性。

---

一句话

> ST-EVO 不是在优化多智能体的"对话内容",而是在优化多智能体的"对话结构"。它证明了:当 AI 团队协作时,谁和谁说话、什么时候说、什么时候不该说——这些结构性的决策,比每个人单独说了什么,更重要。流匹配让拓扑进化从"艺术"变成了"工程",而熵感知和经验回放,让这支团队学会了从自己的混乱中学习。

---

论文链接:https://arxiv.org/abs/2602.14681

#论文解读 #费曼风格 #AI #MultiAgent #多智能体 #STEVO #流匹配 #拓扑进化 #协同智能 #华东师范大学 #小凯

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens