论文:Streaming Communication in Multi-Agent Reasoning
作者:Zhen Yang, Xiaogang Xu, Wen Wang, Cong Chen, Xander Xu, Ying-Cong Chen
发表:2026-06-03, arXiv:2606.05158
机构:香港科技大学广州、阿里巴巴、浙江大学
项目页:https://zhenyangcs.github.io/StreamMA-website/
开源代码:https://github.com/EnVision-Research/StreamMA
一、一个反直觉的发现
多智能体系统有一个共识:先让上游智能体把话讲完,再传给下游。这叫"生成后传输"(generate-then-transfer),延迟随智能体数量线性增长,而且理论上这么做应该效果最好——因为下游拿到的是完整的上下文。
香港科技大学广州、阿里巴巴和浙江大学的研究团队说:错。
他们提出 StreamMA,一个简单到离谱的改动:每产出一个推理步骤就立刻转发给下游,形成流水线并行。结果不仅延迟降低,准确率反而提高。
平均提升 +7.3 个百分点,最高 +22.4 个百分点(HMMT 2026,Claude Opus 4.6-high)。
Claude Opus 4.6 在 HMMT 2026 上:Serial 63.26% → StreamMA 85.61%。涨幅 22.35 个百分点。
这不是优化,这是范式转变。
二、问题:为什么"完整上下文"反而有害?
传统多智能体系统(Serial)的工作方式:
- 上游智能体生成完整的推理链(8步、16步、64步)
- 等全部写完,一次性传给下游
- 下游基于这个完整的链继续推理
问题就出在这里:多步推理的质量是不均匀的。
LLM 有个通病——错误累积。前面的步骤通常是对的,但越往后,基于前面的错误推导,后面的步骤越不靠谱。前3步可能正确率90%,后5步可能只剩40%。
Serial 模式下,下游智能体拿到的是一个混合体:高质量的前几步 + 低质量的后几步。低质量的后几步会误导下游,让它沿着错误方向继续推导。
这就是论文的核心洞见:
"更多上下文不一定更好——关键是什么时候到达。"
三、StreamMA 的解法:流式转发
StreamMA 做了什么?简单到一句话就能说清:
上游智能体每写一步,下游就收到一步。下游不等上游写完,自己先开始推理。
技术实现
Serial(传统):
Agent A → 写完全部步骤 → 传给 B → B 开始推理
StreamMA(流式):
Agent A 写 Step 1 → 立即转发给 B
Agent A 写 Step 2 → 立即转发给 B
Agent B 收到 Step 1 → 开始推理(A 还在写 Step 2)
所有智能体并行执行。Agent A 写 Step 3 的时候,Agent B 已经在处理 Step 1 了,Agent C 可能也已经开始处理从 B 转发过来的步骤了。
为什么准确率更高?
因为下游智能体先看到可靠的前几步,开始形成自己的推理轨迹。等后面不靠谱的步骤传来时,它已经有自己的判断了,不会被轻易带偏。
论文用控制实验验证了这个机制:
| 上游输出 | Stream | Serial | 差距 |
|---|---|---|---|
| ✓✓✓×(尾部错误) | 91.0% | 67.0% | +24.0 |
| ×✓✓✓(头部错误) | 63.0% | 97.0% | −34.0 |
关键不对称:如果错误在尾部,StreamMA 大幅领先;如果错误在头部,StreamMA 落后。
这证明了一个核心结论:早期步骤更可靠,StreamMA 利用了这个结构。Serial 把好坏混在一起,反而削弱了早期步骤的优势。
四、三个闭式定理:从直觉到数学
论文不只是做实验,还给了三个闭式定理,把直觉变成数学。
定理1:效果排序(Effectiveness Ordering)
每个上游步骤 j 正确概率为 pⱼ。定义三个平均值:
- p̄:均匀平均(所有步骤权重一样)
- p_head:头部加权平均(早期步骤权重更高)
- p_tail:尾部加权平均(后期步骤权重更高)
六种情况:
| 情况 | 条件 | 排序 | 含义 |
|---|---|---|---|
| I.a | p_head > p*, p_tail < p*, p̄ > p* | Stream > Serial > Single | Stream 最优 |
| I.b | p_head > p*, p_tail < p*, p̄ < p* | Stream > Single > Serial | Stream 最优 |
| II.a | p̄ > p*, p_tail > p*, p_head > p* | Serial > Stream > Single | Serial 最优 |
| II.b | p̄ > p*, p_tail > p*, p_head < p* | Serial > Single > Stream | Serial 最优 |
| III.a | p_head < p*, p̄ < p*, p_tail < p* | Single > Stream > Serial | Single 最优 |
| III.b | p_head < p*, p̄ < p*, p_tail > p* | Single > Serial > Stream | Single 最优 |
实际意义:多步 LLM 推理的实际情况是 I.a / I.b(早期步骤可靠,后期错误累积)。这正是 StreamMA 占优的 regime。
定理2:速度上限
- A = 智能体数量
- S = 每智能体步数
当 A = S = 64:理论上限 32.3×,实测 26.9×(达到上限的 83%)。
定理3:成本比率
Stream / Serial 成本比率在典型情况下约为 0.925(节省 7.5%)。但加上 KV-cache 命中,可以进一步压缩到 0.58(节省 42%)。
五、实验:8 个基准、2 个模型、3 种拓扑
基准测试
| 类别 | 基准 | 描述 |
|---|---|---|
| 竞赛数学 | AIME 2025, AIME 2026, HMMT 2026 | 高难度数学竞赛题 |
| 研究生科学 | GPQA-Diamond, HLE | 研究生级问答、人类最后考试 |
| 代码 | LCB-G, LCB-E, LCB-T | 代码生成、执行、测试 |
模型
- Claude Opus 4.6(high 设置)
- GPT-5.4(medium 设置)
拓扑
- Chain:链式 A→B→C→D
- Tree:树形 A→{B,C}→D
- Graph:链式 + 额外边 A→C
核心结果
Claude Opus 4.6(High):
| 拓扑 | 方法 | 平均 | 最高提升 |
|---|---|---|---|
| Chain | Serial | 73.48% | — |
| StreamMA | 81.70% | +8.22 | |
| Tree | Serial | 79.43% | — |
| StreamMA | 82.81% | +3.38 | |
| Graph | Serial | 72.92% | — |
| StreamMA | 83.34% | +10.42 |
关键发现:StreamMA 的增益与 Serial 的基线性能成反比。Serial 越弱的地方,StreamMA 提升越大。
- Chain(Serial 最弱):+8.22 pp
- Tree(Serial 较强):+3.38 pp
- Graph(Serial 最弱):+10.42 pp
单基准最高提升:HMMT 2026,Chain 拓扑,Claude Opus 4.6-high:
Serial 63.26% → StreamMA 85.61%,+22.35 pp
GPT-5.4(Medium):增益较小(+1.5 pp vs Serial),因为基线已经很高(接近天花板)。
六、成本-准确率帕累托:Stream 严格占优
论文做了严格的成本分析,使用 Claude Opus 4.6 的实际定价($5/$25/$0.50 per MTok,输入/输出/缓存)。
| 配置 | 成本 | 准确率 |
|---|---|---|
| Stream × 4 | $2.75 | 90.9% |
| Serial × 16 | $5.46 | 89.4% |
| Stream × 1(全缓存) | $0.34 | 78.8% |
| Serial × 1 | $0.40 | 70.5% |
结论:Stream × 4 在成本仅为 Serial × 16 的一半时,准确率更高。
这不仅是工程上的胜利,更是理论上的严格占优——Stream 在成本-准确率平面上严格帕累托优于 Serial。
七、Step-Level Scaling Law:新维度
论文最大的发现之一:
增加每个智能体的推理步数(S)可以同时提高准确率和速度。
这和传统认知完全相反。通常认为"更多步骤 = 更慢"。但在 StreamMA 的流水线并行下,更多步骤意味着更多并行度,反而更快。
实验数据(HMMT 2026, GPT-5.4-medium):
| 配置 | 准确率 | 速度提升 |
|---|---|---|
| A=2, S=auto | 58.3% | 基线 |
| A=64, S=auto | 68.2% | — |
| A=64, S=64 | 73.5% | 26.9× |
- 智能体数量缩放(A: 2→64):+9.9 pp
- 步数缩放(S: auto→64,固定 A=64):额外 +5.3 pp
- 速度:26.9×(达到理论上限 32.3× 的 83%)
这是新的缩放维度:与智能体数量缩放正交,且可组合。
八、对开发者的启示
1. 延迟和准确率不是权衡
传统认知:要更快就得牺牲准确率。StreamMA 证明,在 Multi-Agent 场景下,更快可以带来更准确。
2. 别等上游写完
如果你的系统是多智能体串联,立刻改流式通信。不需要改模型,不需要改拓扑,只需要改通信协议——从"等写完再传"变成"写一步传一步"。
3. KV-cache 是关键
StreamMA 天然支持 KV-cache 复用(前缀共享),这是它能大幅降低成本的核心。如果你的系统不支持缓存,先加缓存,再上 StreamMA。
4. 拓扑选择
Chain 拓扑 StreamMA 收益最大(因为 Serial 基线最低)。如果可能,设计 Chain 拓扑而非全连接 Graph。
5. 不是所有情况都适用
如果上游的头部步骤就很容易出错(错误在开头),StreamMA 反而会更差。但对于多步 LLM 推理(早期步骤通常更可靠),StreamMA 几乎总是更优。
九、局限
论文坦诚地指出了局限:
- 只测了 Claude 和 GPT:其他模型(如 Gemini、Llama)的表现未知
- 只测了 8 个基准:更多领域(如创意写作、对话)需要验证
- 只测了 3 种拓扑:更复杂的动态拓扑(如自适应图)未探索
- 理论假设简化:定理假设每步独立,实际 LLM 有自注意力耦合
- 硬件依赖:速度提升依赖并行执行能力,单线程环境无优势
十、为什么这很重要?
StreamMA 的改动看似简单——从"生成后传输"到"流式转发"——但它触及了一个深层问题:
我们设计的系统,是在模拟人类的"思考后发言",还是在模拟人类的"边想边说"?
人类对话是流式的。你不会等对方把一篇论文写完再回应,你会在对方说第三句话的时候就开始思考。这种"边听边想"不是缺陷,而是效率的来源。
StreamMA 把这个直觉变成了工程。它证明,在 AI 系统中,流式不仅是更快的,而且是更聪明的——因为它让下游智能体更早地接触到最可靠的信息,而不是被混合后的噪声淹没。
这可能是 Multi-Agent 系统的第一个"流式革命"。
参考链接:
- 论文原文:https://arxiv.org/abs/2606.05158
- 项目页:https://zhenyangcs.github.io/StreamMA-website/
- 开源代码:https://github.com/EnVision-Research/StreamMA
#深度研究 #StreamMA #多智能体 #流式通信 #AI推理 #并行计算 #arXiv #香港科技大学 #阿里巴巴 #浙江大学
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。