众智之困:260次实验揭开多Agent协作的残酷真相
#智柴 #Agent #多智能体系统 #缩放定律 #AI研究
---
想象这么一个场景。你手下有九个聪明人,个个斯坦福级智商。你让他们组队解一道题。结果呢?九个一起干,不如一个单干。
这不只是管理学的黑色幽默。这事在 AI 身上也发生了,而且比你想的惨烈得多。
Google Research 和 MIT 那帮人跑了整整 260 轮实验,就为了验证一件谁都觉得该是常识的事:多个 AI agent 协作,能不能比单个更强?答案让他们自己倒吸一口凉气——平均下来,多智能体系统的协作收益,接近零。
是的。你没看错。九个模型凑一块儿,比不上一个模型自己干。某些任务上,多 agent 协作把性能腰斩了 70%;另一些任务上,又凭空多出 80% 的收益。
一种诡异的不对称。
这背后藏着一个更让人不安的真相:我们一直在往系统里加 agent,却没几个人停下来问一句——什么时候该加?什么时候该收手?
那篇题为 *Towards a Science of Scaling Agent Systems* 的论文(Kim et al., 2025),头一回把这问题摆上了手术台。他们的做法很硬核:没搞花里胡哨的新框架。拿受控实验,把"协作"拆成可量化的变量,灌进回归模型,看看到底什么在推着性能往上走,什么在拽着它往下掉。
下面,把这台手术拆开来看。
---
🧬 Agent 世界的物种分类学
讨论"协作"之前,一件事得先说死——"谁在和谁协作"。
论文把 agent 系统分成了两路:单兵作战(SAS, Single-Agent System) 和 多兵协作(MAS, Multi-Agent System)。这个分法看着朴素,其实比学术界大多数含混不清的定义要干净得多。关键点在哪儿?一个 agent 自言自语——自我反思、思维链推理——那不叫多智能体协作。多智能体的门槛很硬:多个 LLM 实例之间,必须通过结构化的消息传递、共享记忆或编排协议发生通信。
画出来,是五张架构蓝图:
| 架构 | 一句话概括 | 通信模式 | 关键代价 |
|---|---|---|---|
| Single-Agent | 一人扛所有 | 无通信 | 零开销,但探索单一 |
| Independent | 各干各的,最后拼起来 | agent→聚合器(单向) | 58% 额外开销,无交叉验证 |
| Centralized | 设一个"总管"统一调度 | 编排器↔各agent(星型) | 285% 开销,但有验证瓶颈 |
| Decentralized | 七嘴八舌讨论出共识 | 全对全通信 | 263% 开销,无中心控制 |
| Hybrid | 总管调度 + 横向交流 | 星型+对等边 | 515% 开销,最贵 |
这五种架构,就像动物界的五种生存策略——有的独来独往(Single-Agent),有的成群结队但各自觅食(Independent),有的有蜂王指挥(Centralized),有的靠群体共识(Decentralized),还有的是蜂王加横向交流的混合版(Hybrid)。问题是:在什么环境里,哪种策略能活下来?
---
⚗️ 实验:260 场"饥饿游戏"
论文的实验设计堪称"控制变量法的教科书"。他们干了这么几件事:
第一,锁死所有可以锁的变量。 同一套工具 API、同一套 prompt 模板、同一种计算预算分配。多 agent 团队不拿更多算力——n 个 agent 的队伍,每个 agent 的推理轮次跟着缩。一条解释路径被堵死了:"因为多烧了算力,所以成绩好"。
第二,覆盖足够多的"生态位"。 选了六个基准测试,涵盖了从金融分析到 Minecraft 规划、从软件工程到命令行操作的广泛任务:
| 基准测试 | 任务性质 | 工具数 | 一句话 |
|---|---|---|---|
| Finance-Agent | 金融推理,可分解 | 5 | 入门级分析师,查新闻、读财报、综合判断 |
| BrowseComp-Plus | 网页信息检索 | — | 跨网站定位信息 |
| WorkBench | 商业活动规划 | 16 | 工具最多的场景,堪称"瑞士军刀测试" |
| SWE-bench Verified | 软件工程 | 7 | 修 GitHub issue,程序员的日常 |
| Terminal-Bench | CLI 操作 | 2 | 系统管理、安全、ML 任务 |
| PlanCraft | 顺序规划 | 4 | Minecraft 里的生存指南 |
每个基准 × 每族三个模型 × 五种架构 = 260 个独立配置。每个配置跑 50–100 个实例。这不是调参——这是在做系统级的对照实验。
---
📐 三大缩放铁律
所有数据灌入一个 20 参数的回归模型。噪声退去之后,三条铁律露了出来。
#### 铁律一:基线悖论——单 agent 越强,协作越亏
论文最核心的发现。回归模型里有一个交互项,系数大得惊人:P_SA × log(1+n_a) 的 β = -0.236,p = 0.004。
翻译成人话:单 agent 的基线性能一旦跨过大约 45% 准确率这个坎,每多加一个 agent,性能就开始往下掉。不是"收益递减"——是"干赔不赚"。论文管它叫"能力饱和效应"(capability-saturation effect)。
说白了:你一个人已经够用了,再加人就是添乱。
PlanCraft 是最惨烈的例子。单 agent 的平均准确率是 56.8%,属于"够用"的范畴。然后你看多 agent 的表现——Independent 架构直接砸到 17%(降 70%),最好的 Hybrid 也只能做到 34.6%(降 39.1%)。为什么?
翻看执行轨迹,原因一目了然。单 agent 做 PlanCraft 的步骤简洁得令人发指:查配方 → 放材料 → 合成,三步搞定。而 Centralized MAS 呢?Agent 1 在研究配方(冗余),Agent 2 在检查库存(又冗余),Agent 3 才真正开始执行。三个聪明人花了两倍的时间,做了一件一个人三秒钟就能搞定的事。
> 小贴士:这是所谓的"协调税"(coordination tax)——通信、同步、共识这些多 agent 架构必须支付的固定成本。当任务本身足够简单,这笔税就变成了净亏损。
#### 铁律二:工具越多,协作越贵
基线悖论说的是"单 agent 够强就别加人"。第二条铁律补了后半句:工具多了,也别加人。
回归模型里,E_c × T 的 β = -0.096,p = 0.002。T 是工具数量,E_c 是协调效率。交互项为负——工具越多,多 agent 架构的协调效率跌得越狠。
WorkBench(16 个工具)是最佳注脚。在这个基准上,最好的 MAS 架构(Decentralized)也才比单 agent 高出 5.6%,Independent 直接亏了 11%。16 个工具,意味着每个 agent 的动作空间极大。你调了 Slack,我改了 Google Calendar,他动了什么没人知道。信息碎片化的代价,在工具密集的环境里,指数级放大。
反过来,Finance-Agent 只有 5 个工具,Centralized 架构却砸出了 +80.8% 的收益。五个工具,刚好够拆成几个专注的子任务,每块交给一个 agent 单干,编排器最后综合。这就是"任务可分解性"和"工具数量"的黄金交叉。
#### 铁律三:错误传播的几何差异
论文引入了一个精妙的指标:错误放大因子(error amplification factor),定义为 A_e^task = (1 - P_MAS) / (1 - P_SAS)。数值大于 1,说明多 agent 系统比单 agent 犯了更多的错。
五种架构的错误放大因子如下:
| 架构 | 错误放大因子 | 一句话 |
|---|---|---|
| Single-Agent | 1.0× | 基准线 |
| Centralized | 4.4× | 有验证瓶颈,错误可控 |
| Hybrid | 5.1× | 横向通信带来额外污染 |
| Decentralized | 7.8× | 七嘴八舌,以讹传讹 |
| Independent | 17.2× | 各干各的,没人纠错,灾难性放大 |
论文还对错误类型做了分类。在 Centralized 架构下,上下文遗漏(context omission)减少了 66.8%,逻辑矛盾减少了 36.4%。但在 Hybrid 架构下,数值漂移(numerical drift)反而恶化了——因为横向通信引入了更多"二手信息",中间经过的环节越多,失真越严重。
---
🔬 错误的解剖学
如果我们把多 agent 协作比作一场手术,那错误分析就是病理报告。论文把错误分成了四类:
| 错误类型 | 单 agent 基线率 | Centralized 后 | 变化 |
|---|---|---|---|
| 逻辑矛盾 | 12.3-18.7% | 9.1% | ↓36.4% |
| 数值漂移 | 20.9-24.1% | 18.3% | ↓24% |
| 上下文遗漏 | 15.8-25.2% | 8.3% | ↓66.8% |
| 协调失败 | —(MAS 专属) | 1.8% | 新引入 |
但有个细节让人警醒:Hybrid 的协调失败率高达 12.4%。加了横向通信通道之后,编排器反而更难控场。信息从两个通道同时流动——"官方渠道"和"私聊"——一致性维护的难度不是线性增加。是爆炸。
> 小贴士:所谓"协调失败"(coordination failure),指两个或更多 agent 对同一事实给出了相互矛盾的判断,而系统未能解决这一冲突。这在 Hybrid 架构中最为常见——因为 agent 之间可以直接通信,可能形成"小团体共识",绕过了编排器的全局视野。
---
🧭 架构选择的导航图
所有这些分析,最终落在一个很实际的问题上:拿到一个任务,该用哪种架构?
论文的训练结果,给了一个挺硬气的答案:他们的回归模型在留置配置上预测最佳架构的准确率到了 87%。对照一下——随机选只有 20% 的命中率,纯靠模型能力也就 54%。架构-任务对齐这件事,确实有规律可循,而且这规律能被量化地抓出来。
简化成实用指南:
| 如果你的任务... | 推荐架构 | 典型场景 |
|---|---|---|
| 单 agent 已经做得很好(>45%) | Single-Agent | PlanCraft、常规代码生成 |
| 可分解、工具少(≤5)、单 agent 吃力(<35%) | Centralized | 金融分析、研究报告 |
| 工具多但单 agent 还行(~60%) | Decentralized | WorkBench、多工具编排 |
| 极度复杂、需要深度验证 | Hybrid(谨慎使用) | 需多层审批的关键决策 |
还有一个常被忽略的细节:
LLM 家族对架构的敏感度是不同的。 论文发现,Anthropic 的模型在 Centralized 架构中表现出了独特的"异质混合收益"——把不同能力的 Claude 模型混在一起组队,比全用同一个模型效果更好。而 OpenAI 的模型则对通信质量更敏感,Decentralized 架构中如果消息写得不清楚,性能掉得比 Google 的模型更快。最大跨家族架构缩放斜率差异只有 0.023(CV < 0.02),说明整体趋势稳健,但家族间的"个性"差异值得关注。---
💰 效率的账单
性能和效率之间,永远有一本账要算。论文没有回避这个问题——他们算了一笔冷冰冰的 token 经济账:
| 架构 | 每千 token 的成功次数 | 相对单 agent 效率 |
|---|---|---|
| Single-Agent | 67.7 | 1.00× |
| Independent | 42.4 | 0.63× |
| Decentralized | 23.9 | 0.35× |
| Centralized | 21.5 | 0.32× |
| Hybrid | 13.6 | 0.20× |
论文还估算了美元成本。OpenAI 的 Hybrid,每提升 1% 成功率约 $0.008;换 Anthropic 的模型,跳到 $0.024——三倍。这些数字说了一件事:
多 agent 系统的真正成本不在开发,在推理。 每多加一个 agent、多跑一轮通信,留下的不只是代码复杂度,还有一张默默涨价的 token 账单。---
🔮 未竟之路:这仅仅是开端
这篇论文标题里有个词很容易被漏掉——"Towards"(走向)。它自己先摊了牌:这不过是第一步。
几个明显的局限,值得提一笔:
R² 还卡在 0.37–0.41。 一半以上的性能方差,模型还抓不住。可能是任务里某些微妙的结构、prompt 措辞的细微差别,甚至 agent 人格化的效果——这些东西至今还在回归模型的盲区里。Intelligence Index 只跑了 42–71 这个区间。 要是将来冒出指数级更强的模型——Intelligence Index 破 100、破 200——这些缩放定律还站得住吗?论文的集群鲁棒推断说,能力饱和效应是最稳的发现。但"饱和"这个词的定义,在更强的模型面前,可能得重写。最大的团队只有 9 个 agent。 而论文自己发现,推理轮次随 agent 数量呈幂律增长——T = 2.72 × (n + 0.5)^1.724,指数干到了 1.724。按这个曲线往外推,100 个 agent 的队伍,光推理轮次就要破 7000。这还没算 token、没算协调开销。还没到那个规模,系统可能先在经济上崩了。集群鲁棒推断扒出了隐藏的不稳定性。 在数据集级别做聚类校正后,有些预测变量的标准误膨胀了 2.9 倍。跨任务的泛化,依然是个开放问题——六个基准上成立的规律,换七个,可能就没那么稳了。但话说回来,这篇论文真正的贡献,不是一个终极答案。它搭了一个
可以迭代的框架。配置、轨迹、评估代码,全开源了。后来者可以在这框架上换新模型、试新架构、测新任务——每跑一次实验,就给"Agent 系统缩放科学"这栋楼添一块砖。---
📚 参考文献
1.
Kim, Y., Gu, K., Park, C., et al.** *Towards a Science of Scaling Agent Systems.* arXiv:2512.08296v3, 2026. — 本文核心文献,提出了 Agent 系统缩放的定量框架,涵盖 260 个配置、5 种架构、6 个基准和 3 个 LLM 家族。2. Kaplan, J., McCandlish, S., Henighan, T., et al. *Scaling Laws for Neural Language Models.* arXiv:2001.08361, 2020. — 神经缩放定律的开山之作,确立了模型性能随参数量、数据量和计算量的幂律关系,为本文的"协作缩放"研究提供了对偶参照。
3. Park, J. S., O'Brien, J. C., Cai, C. J., et al. *Generative Agents: Interactive Simulacra of Human Behavior.* UIST, 2023. — 多智能体交互模拟的奠基性工作,启发了本文对 agent 间通信拓扑和协调机制的实验设计。
4. Li, G., Hammoud, H., Itani, H., et al. *CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society.* NeurIPS, 2023. — 多 LLM agent 通信框架的代表作之一,为本文的角色扮演和通信模式设计提供了方法论参考。
5. Chowdhery, A., Narang, S., Devlin, J., et al. *PaLM: Scaling Language Modeling with Pathways.* JMLR, 2023. — 大规模语言模型训练与缩放的系统性研究,为本文使用的 LLM 能力指标(Intelligence Index)提供了基础参照系。
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens