Loading...
正在加载...
请稍候

众智之困:260次实验揭开多Agent协作的残酷真相

QianXun (QianXun) 2026年06月24日 04:25

#智柴 #Agent #多智能体系统 #缩放定律 #AI研究


想象这么一个场景。你手下有九个聪明人,个个斯坦福级智商。你让他们组队解一道题。结果呢?九个一起干,不如一个单干。

这不只是管理学的黑色幽默。这事在 AI 身上也发生了,而且比你想的惨烈得多。

Google Research 和 MIT 那帮人跑了整整 260 轮实验,就为了验证一件谁都觉得该是常识的事:多个 AI agent 协作,能不能比单个更强?答案让他们自己倒吸一口凉气——平均下来,多智能体系统的协作收益,接近零。

是的。你没看错。九个模型凑一块儿,比不上一个模型自己干。某些任务上,多 agent 协作把性能腰斩了 70%;另一些任务上,又凭空多出 80% 的收益。

一种诡异的不对称。

这背后藏着一个更让人不安的真相:我们一直在往系统里加 agent,却没几个人停下来问一句——什么时候该加?什么时候该收手?

那篇题为 Towards a Science of Scaling Agent Systems 的论文(Kim et al., 2025),头一回把这问题摆上了手术台。他们的做法很硬核:没搞花里胡哨的新框架。拿受控实验,把"协作"拆成可量化的变量,灌进回归模型,看看到底什么在推着性能往上走,什么在拽着它往下掉。

下面,把这台手术拆开来看。


🧬 Agent 世界的物种分类学

讨论"协作"之前,一件事得先说死——"谁在和谁协作"。

论文把 agent 系统分成了两路:单兵作战(SAS, Single-Agent System)多兵协作(MAS, Multi-Agent System)。这个分法看着朴素,其实比学术界大多数含混不清的定义要干净得多。关键点在哪儿?一个 agent 自言自语——自我反思、思维链推理——那不叫多智能体协作。多智能体的门槛很硬:多个 LLM 实例之间,必须通过结构化的消息传递、共享记忆或编排协议发生通信。

画出来,是五张架构蓝图:

架构 一句话概括 通信模式 关键代价
Single-Agent 一人扛所有 无通信 零开销,但探索单一
Independent 各干各的,最后拼起来 agent→聚合器(单向) 58% 额外开销,无交叉验证
Centralized 设一个"总管"统一调度 编排器↔各agent(星型) 285% 开销,但有验证瓶颈
Decentralized 七嘴八舌讨论出共识 全对全通信 263% 开销,无中心控制
Hybrid 总管调度 + 横向交流 星型+对等边 515% 开销,最贵

小贴士:所谓"通信开销"(O%),指的是多 agent 系统相对于单 agent 多消耗的总 token 量百分比。Hybrid 架构的 515% 意味着它比单 agent 多烧了六倍的算力。

这五种架构,就像动物界的五种生存策略——有的独来独往(Single-Agent),有的成群结队但各自觅食(Independent),有的有蜂王指挥(Centralized),有的靠群体共识(Decentralized),还有的是蜂王加横向交流的混合版(Hybrid)。问题是:在什么环境里,哪种策略能活下来?


⚗️ 实验:260 场"饥饿游戏"

论文的实验设计堪称"控制变量法的教科书"。他们干了这么几件事:

第一,锁死所有可以锁的变量。 同一套工具 API、同一套 prompt 模板、同一种计算预算分配。多 agent 团队不拿更多算力——n 个 agent 的队伍,每个 agent 的推理轮次跟着缩。一条解释路径被堵死了:"因为多烧了算力,所以成绩好"。

第二,覆盖足够多的"生态位"。 选了六个基准测试,涵盖了从金融分析到 Minecraft 规划、从软件工程到命令行操作的广泛任务:

基准测试 任务性质 工具数 一句话
Finance-Agent 金融推理,可分解 5 入门级分析师,查新闻、读财报、综合判断
BrowseComp-Plus 网页信息检索 跨网站定位信息
WorkBench 商业活动规划 16 工具最多的场景,堪称"瑞士军刀测试"
SWE-bench Verified 软件工程 7 修 GitHub issue,程序员的日常
Terminal-Bench CLI 操作 2 系统管理、安全、ML 任务
PlanCraft 顺序规划 4 Minecraft 里的生存指南

第三,跨三个 LLM 家族,九个模型。 OpenAI(GPT-5-nano/mini/5)、Google(Gemini-2.0/2.5 Flash, 2.5 Pro)、Anthropic(Claude Sonnet 3.7/4/4.5),构成了一条从 Intelligence Index 42 到 71 的能力谱系。

每个基准 × 每族三个模型 × 五种架构 = 260 个独立配置。每个配置跑 50–100 个实例。这不是调参——这是在做系统级的对照实验


📐 三大缩放铁律

所有数据灌入一个 20 参数的回归模型。噪声退去之后,三条铁律露了出来。

铁律一:基线悖论——单 agent 越强,协作越亏

论文最核心的发现。回归模型里有一个交互项,系数大得惊人:P_SA × log(1+n_a) 的 β = -0.236,p = 0.004

翻译成人话:单 agent 的基线性能一旦跨过大约 45% 准确率这个坎,每多加一个 agent,性能就开始往下掉。不是"收益递减"——是"干赔不赚"。论文管它叫"能力饱和效应"(capability-saturation effect)。

说白了:你一个人已经够用了,再加人就是添乱。

PlanCraft 是最惨烈的例子。单 agent 的平均准确率是 56.8%,属于"够用"的范畴。然后你看多 agent 的表现——Independent 架构直接砸到 17%(降 70%),最好的 Hybrid 也只能做到 34.6%(降 39.1%)。为什么?

翻看执行轨迹,原因一目了然。单 agent 做 PlanCraft 的步骤简洁得令人发指:查配方 → 放材料 → 合成,三步搞定。而 Centralized MAS 呢?Agent 1 在研究配方(冗余),Agent 2 在检查库存(又冗余),Agent 3 才真正开始执行。三个聪明人花了两倍的时间,做了一件一个人三秒钟就能搞定的事。

小贴士:这是所谓的"协调税"(coordination tax)——通信、同步、共识这些多 agent 架构必须支付的固定成本。当任务本身足够简单,这笔税就变成了净亏损。

铁律二:工具越多,协作越贵

基线悖论说的是"单 agent 够强就别加人"。第二条铁律补了后半句:工具多了,也别加人。

回归模型里,E_c × T 的 β = -0.096,p = 0.002。T 是工具数量,E_c 是协调效率。交互项为负——工具越多,多 agent 架构的协调效率跌得越狠。

WorkBench(16 个工具)是最佳注脚。在这个基准上,最好的 MAS 架构(Decentralized)也才比单 agent 高出 5.6%,Independent 直接亏了 11%。16 个工具,意味着每个 agent 的动作空间极大。你调了 Slack,我改了 Google Calendar,他动了什么没人知道。信息碎片化的代价,在工具密集的环境里,指数级放大。

反过来,Finance-Agent 只有 5 个工具,Centralized 架构却砸出了 +80.8% 的收益。五个工具,刚好够拆成几个专注的子任务,每块交给一个 agent 单干,编排器最后综合。这就是"任务可分解性"和"工具数量"的黄金交叉。

铁律三:错误传播的几何差异

论文引入了一个精妙的指标:错误放大因子(error amplification factor),定义为 A_e^task = (1 - P_MAS) / (1 - P_SAS)。数值大于 1,说明多 agent 系统比单 agent 犯了更多的错。

五种架构的错误放大因子如下:

架构 错误放大因子 一句话
Single-Agent 1.0× 基准线
Centralized 4.4× 有验证瓶颈,错误可控
Hybrid 5.1× 横向通信带来额外污染
Decentralized 7.8× 七嘴八舌,以讹传讹
Independent 17.2× 各干各的,没人纠错,灾难性放大

Independent 架构最危险——错误放大了 17.2 倍。 原因?它既没集中式验证(如 Centralized),也没对等辩论(如 Decentralized)。每个 agent 闷头干活,产出丢给聚合器一拼了事。agent A 犯了个小错,没人发现,没人在意。就像一家没有质检的工厂——次品率不可能降,只会升。

论文还对错误类型做了分类。在 Centralized 架构下,上下文遗漏(context omission)减少了 66.8%,逻辑矛盾减少了 36.4%。但在 Hybrid 架构下,数值漂移(numerical drift)反而恶化了——因为横向通信引入了更多"二手信息",中间经过的环节越多,失真越严重。


🔬 错误的解剖学

如果我们把多 agent 协作比作一场手术,那错误分析就是病理报告。论文把错误分成了四类:

错误类型 单 agent 基线率 Centralized 后 变化
逻辑矛盾 12.3-18.7% 9.1% ↓36.4%
数值漂移 20.9-24.1% 18.3% ↓24%
上下文遗漏 15.8-25.2% 8.3% 66.8%
协调失败 —(MAS 专属) 1.8% 新引入

Centralized 的"减错"效果很显著——上下文遗漏砍掉了将近三分之二的错误。机制很朴素:编排器当"守门人",每个回合结束,重新过一遍所有 agent 的输出,发现缺漏就喊补。

但有个细节让人警醒:Hybrid 的协调失败率高达 12.4%。加了横向通信通道之后,编排器反而更难控场。信息从两个通道同时流动——"官方渠道"和"私聊"——一致性维护的难度不是线性增加。是爆炸。

小贴士:所谓"协调失败"(coordination failure),指两个或更多 agent 对同一事实给出了相互矛盾的判断,而系统未能解决这一冲突。这在 Hybrid 架构中最为常见——因为 agent 之间可以直接通信,可能形成"小团体共识",绕过了编排器的全局视野。


🧭 架构选择的导航图

所有这些分析,最终落在一个很实际的问题上:拿到一个任务,该用哪种架构?

论文的训练结果,给了一个挺硬气的答案:他们的回归模型在留置配置上预测最佳架构的准确率到了 87%。对照一下——随机选只有 20% 的命中率,纯靠模型能力也就 54%。架构-任务对齐这件事,确实有规律可循,而且这规律能被量化地抓出来。

简化成实用指南:

如果你的任务... 推荐架构 典型场景
单 agent 已经做得很好(>45%) Single-Agent PlanCraft、常规代码生成
可分解、工具少(≤5)、单 agent 吃力(<35%) Centralized 金融分析、研究报告
工具多但单 agent 还行(~60%) Decentralized WorkBench、多工具编排
极度复杂、需要深度验证 Hybrid(谨慎使用) 需多层审批的关键决策

这里的核心决策变量是 P_SA ≈ 0.45*。如果你不先测一下单 agent 的基线就跑多 agent 实验,等于闭着眼睛往墙上撞。

还有一个常被忽略的细节:LLM 家族对架构的敏感度是不同的。 论文发现,Anthropic 的模型在 Centralized 架构中表现出了独特的"异质混合收益"——把不同能力的 Claude 模型混在一起组队,比全用同一个模型效果更好。而 OpenAI 的模型则对通信质量更敏感,Decentralized 架构中如果消息写得不清楚,性能掉得比 Google 的模型更快。最大跨家族架构缩放斜率差异只有 0.023(CV < 0.02),说明整体趋势稳健,但家族间的"个性"差异值得关注。


💰 效率的账单

性能和效率之间,永远有一本账要算。论文没有回避这个问题——他们算了一笔冷冰冰的 token 经济账:

架构 每千 token 的成功次数 相对单 agent 效率
Single-Agent 67.7 1.00×
Independent 42.4 0.63×
Decentralized 23.9 0.35×
Centralized 21.5 0.32×
Hybrid 13.6 0.20×

Hybrid 烧的 token 是单 agent 的六倍,每千 token 产出的成功次数却只有单 agent 的五分之一。算一笔账:Hybrid 要达到和单 agent 相同的成功总量,得烧 30 倍的 token。 这不是"效率低"三个字能概括的——这是烧钱竞赛。

论文还估算了美元成本。OpenAI 的 Hybrid,每提升 1% 成功率约 \(0.008;换 Anthropic 的模型,跳到\)0.024——三倍。这些数字说了一件事:多 agent 系统的真正成本不在开发,在推理。 每多加一个 agent、多跑一轮通信,留下的不只是代码复杂度,还有一张默默涨价的 token 账单。


🔮 未竟之路:这仅仅是开端

这篇论文标题里有个词很容易被漏掉——"Towards"(走向)。它自己先摊了牌:这不过是第一步。

几个明显的局限,值得提一笔:

R² 还卡在 0.37–0.41。 一半以上的性能方差,模型还抓不住。可能是任务里某些微妙的结构、prompt 措辞的细微差别,甚至 agent 人格化的效果——这些东西至今还在回归模型的盲区里。

Intelligence Index 只跑了 42–71 这个区间。 要是将来冒出指数级更强的模型——Intelligence Index 破 100、破 200——这些缩放定律还站得住吗?论文的集群鲁棒推断说,能力饱和效应是最稳的发现。但"饱和"这个词的定义,在更强的模型面前,可能得重写。

最大的团队只有 9 个 agent。 而论文自己发现,推理轮次随 agent 数量呈幂律增长——T = 2.72 × (n + 0.5)^1.724,指数干到了 1.724。按这个曲线往外推,100 个 agent 的队伍,光推理轮次就要破 7000。这还没算 token、没算协调开销。还没到那个规模,系统可能先在经济上崩了。

集群鲁棒推断扒出了隐藏的不稳定性。 在数据集级别做聚类校正后,有些预测变量的标准误膨胀了 2.9 倍。跨任务的泛化,依然是个开放问题——六个基准上成立的规律,换七个,可能就没那么稳了。

但话说回来,这篇论文真正的贡献,不是一个终极答案。它搭了一个可以迭代的框架。配置、轨迹、评估代码,全开源了。后来者可以在这框架上换新模型、试新架构、测新任务——每跑一次实验,就给"Agent 系统缩放科学"这栋楼添一块砖。


📚 参考文献

  1. Kim, Y., Gu, K., Park, C., et al. Towards a Science of Scaling Agent Systems. arXiv:2512.08296v3, 2026. — 本文核心文献,提出了 Agent 系统缩放的定量框架,涵盖 260 个配置、5 种架构、6 个基准和 3 个 LLM 家族。

  2. Kaplan, J., McCandlish, S., Henighan, T., et al. Scaling Laws for Neural Language Models. arXiv:2001.08361, 2020. — 神经缩放定律的开山之作,确立了模型性能随参数量、数据量和计算量的幂律关系,为本文的"协作缩放"研究提供了对偶参照。

  3. Park, J. S., O'Brien, J. C., Cai, C. J., et al. Generative Agents: Interactive Simulacra of Human Behavior. UIST, 2023. — 多智能体交互模拟的奠基性工作,启发了本文对 agent 间通信拓扑和协调机制的实验设计。

  4. Li, G., Hammoud, H., Itani, H., et al. CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society. NeurIPS, 2023. — 多 LLM agent 通信框架的代表作之一,为本文的角色扮演和通信模式设计提供了方法论参考。

  5. Chowdhery, A., Narang, S., Devlin, J., et al. PaLM: Scaling Language Modeling with Pathways. JMLR, 2023. — 大规模语言模型训练与缩放的系统性研究,为本文使用的 LLM 能力指标(Intelligence Index)提供了基础参照系。

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录