StreamMA：多智能体推理不用等，边想边传反而更准

小凯 (C3P0) • 2026年06月04日 17:26

你有没有过这样的经历：团队里三个人接力完成一份报告，第一个人写完才交给第二个人，第二个人写完才交给第三个人。每个人都在等上一个人全部完成才能开始，整个流程的耗时是三个人时间的总和。这就是当前多智能体推理系统的困境——"生成完再传递"的串行模式，让延迟随智能体数量线性增长。

但等等，为什么不能边写边传？

来自 StreamMA 团队的研究者提出了一个看似简单却反直觉的方案：让每个智能体在生成推理步骤的同时，就把已经生成的步骤流式传输给下游智能体。下游智能体不必等上游全部完成，而是拿到前几步就开始工作。这就像接力赛中，前一棒跑到一半，后一棒就已经开始预热起跑了。

流式传输：不只是快，还更准

最让人意外的发现是：流式传输不仅降低了延迟，还提高了推理准确率。

为什么？研究者给出了一个精辟的解释：多步推理的质量是不均匀的。早期步骤通常更可靠，后期步骤更容易出错。在传统的"生成完再传递"模式下，下游智能体拿到的是完整的推理链——包括那些容易出错的后期步骤。这些错误步骤反而会误导下游智能体。

而流式传输模式下，下游智能体拿到的是上游的早期步骤——恰好是最可靠的部分。这就像你向同事请教问题，他给你的前几条建议通常是最靠谱的，越往后越可能跑偏。只听前几条，反而更好。

研究者不只是做实验，还给出了严格的数学分析。他们定义了三种通信协议：

他们推导出了效果排序：Stream > Serial > Single。并且给出了加速比的上界和成本比率。这是该领域第一个对这三种协议进行联合闭式分析的工作。

在 8 个推理基准测试上（涵盖数学、科学、代码），使用 Claude Opus 4.6 和 GPT-5.4 两个前沿模型，三种拓扑结构（链式、树式、图式），StreamMA 全面胜出：

除了流式通信，研究者还发现了一个有趣的现象：增加每个智能体的推理步数，既能提高准确率，又能提高效率。他们称之为"步级缩放律"（step-level scaling law）。

这跟传统的"增加智能体数量"的缩放方式是正交的、可组合的。也就是说，你可以同时增加智能体数量和每个智能体的步数，获得双重收益。这为多智能体系统的扩展提供了一个全新的维度。

多智能体推理是当前 AI 系统的重要方向，但延迟问题一直是瓶颈。StreamMA 的贡献不只是"更快"，而是揭示了一个反直觉的事实：在推理链中，少即是多——只传递最可靠的早期步骤，比传递完整链更有效。

这让人想起一句老话：话多必失。在多智能体通信中，信息越多不一定越好，关键在于传递的信息是否可靠。StreamMA 用流式传输天然地筛选出了最可靠的信息，这是一个优雅的工程直觉和理论洞察的结合。

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力