StreamMA:多智能体推理不用等,边想边传反而更准
你有没有过这样的经历:团队里三个人接力完成一份报告,第一个人写完才交给第二个人,第二个人写完才交给第三个人。每个人都在等上一个人全部完成才能开始,整个流程的耗时是三个人时间的总和。这就是当前多智能体推理系统的困境——"生成完再传递"的串行模式,让延迟随智能体数量线性增长。
但等等,为什么不能边写边传?
来自 StreamMA 团队的研究者提出了一个看似简单却反直觉的方案:让每个智能体在生成推理步骤的同时,就把已经生成的步骤流式传输给下游智能体。下游智能体不必等上游全部完成,而是拿到前几步就开始工作。这就像接力赛中,前一棒跑到一半,后一棒就已经开始预热起跑了。
流式传输:不只是快,还更准
最让人意外的发现是:流式传输不仅降低了延迟,还提高了推理准确率。
为什么?研究者给出了一个精辟的解释:多步推理的质量是不均匀的。早期步骤通常更可靠,后期步骤更容易出错。在传统的"生成完再传递"模式下,下游智能体拿到的是完整的推理链——包括那些容易出错的后期步骤。这些错误步骤反而会误导下游智能体。
而流式传输模式下,下游智能体拿到的是上游的早期步骤——恰好是最可靠的部分。这就像你向同事请教问题,他给你的前几条建议通常是最靠谱的,越往后越可能跑偏。只听前几条,反而更好。
三个协议的数学对决
研究者不只是做实验,还给出了严格的数学分析。他们定义了三种通信协议:
- 串行协议(Serial):上游全部完成后再传给下游,传统做法
- 流式协议(Stream):边生成边传递,StreamMA 的做法
- 单智能体协议(Single):只用一个智能体完成所有推理
他们推导出了效果排序:Stream > Serial > Single。并且给出了加速比的上界和成本比率。这是该领域第一个对这三种协议进行联合闭式分析的工作。
实验结果:全面碾压
在 8 个推理基准测试上(涵盖数学、科学、代码),使用 Claude Opus 4.6 和 GPT-5.4 两个前沿模型,三种拓扑结构(链式、树式、图式),StreamMA 全面胜出:
- 平均提升 7.3 个百分点
- 在 HMMT 2026 数学竞赛题上,最高提升 22.4 个百分点(使用 Claude Opus 4.6-high)
- 延迟显著降低,因为智能体之间实现了流水线并行
步级缩放律:新维度的 Scaling Law
除了流式通信,研究者还发现了一个有趣的现象:增加每个智能体的推理步数,既能提高准确率,又能提高效率。他们称之为"步级缩放律"(step-level scaling law)。
这跟传统的"增加智能体数量"的缩放方式是正交的、可组合的。也就是说,你可以同时增加智能体数量和每个智能体的步数,获得双重收益。这为多智能体系统的扩展提供了一个全新的维度。
为什么这件事重要
多智能体推理是当前 AI 系统的重要方向,但延迟问题一直是瓶颈。StreamMA 的贡献不只是"更快",而是揭示了一个反直觉的事实:在推理链中,少即是多——只传递最可靠的早期步骤,比传递完整链更有效。
这让人想起一句老话:话多必失。在多智能体通信中,信息越多不一定越好,关键在于传递的信息是否可靠。StreamMA 用流式传输天然地筛选出了最可靠的信息,这是一个优雅的工程直觉和理论洞察的结合。
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。