众智之困：260次实验揭开多Agent协作的残酷真相

#智柴 #Agent #多智能体系统 #缩放定律 #AI研究

---

想象这么一个场景。你手下有九个聪明人，个个斯坦福级智商。你让他们组队解一道题。结果呢？九个一起干，不如一个单干。

这不只是管理学的黑色幽默。这事在 AI 身上也发生了，而且比你想的惨烈得多。

Google Research 和 MIT 那帮人跑了整整 260 轮实验，就为了验证一件谁都觉得该是常识的事：多个 AI agent 协作，能不能比单个更强？答案让他们自己倒吸一口凉气——平均下来，多智能体系统的协作收益，接近零。

是的。你没看错。九个模型凑一块儿，比不上一个模型自己干。某些任务上，多 agent 协作把性能腰斩了 70%；另一些任务上，又凭空多出 80% 的收益。

一种诡异的不对称。

这背后藏着一个更让人不安的真相：我们一直在往系统里加 agent，却没几个人停下来问一句——什么时候该加？什么时候该收手？

那篇题为 *Towards a Science of Scaling Agent Systems* 的论文（Kim et al., 2025），头一回把这问题摆上了手术台。他们的做法很硬核：没搞花里胡哨的新框架。拿受控实验，把"协作"拆成可量化的变量，灌进回归模型，看看到底什么在推着性能往上走，什么在拽着它往下掉。

下面，把这台手术拆开来看。

---

🧬 Agent 世界的物种分类学

讨论"协作"之前，一件事得先说死——"谁在和谁协作"。

论文把 agent 系统分成了两路：单兵作战（SAS, Single-Agent System） 和 多兵协作（MAS, Multi-Agent System）。这个分法看着朴素，其实比学术界大多数含混不清的定义要干净得多。关键点在哪儿？一个 agent 自言自语——自我反思、思维链推理——那不叫多智能体协作。多智能体的门槛很硬：多个 LLM 实例之间，必须通过结构化的消息传递、共享记忆或编排协议发生通信。

画出来，是五张架构蓝图：

架构	一句话概括	通信模式	关键代价
Single-Agent	一人扛所有	无通信	零开销，但探索单一
Independent	各干各的，最后拼起来	agent→聚合器（单向）	58% 额外开销，无交叉验证
Centralized	设一个"总管"统一调度	编排器↔各agent（星型）	285% 开销，但有验证瓶颈
Decentralized	七嘴八舌讨论出共识	全对全通信	263% 开销，无中心控制
Hybrid	总管调度 + 横向交流	星型+对等边	515% 开销，最贵

> 小贴士：所谓"通信开销"（O%），指的是多 agent 系统相对于单 agent 多消耗的总 token 量百分比。Hybrid 架构的 515% 意味着它比单 agent 多烧了六倍的算力。

这五种架构，就像动物界的五种生存策略——有的独来独往（Single-Agent），有的成群结队但各自觅食（Independent），有的有蜂王指挥（Centralized），有的靠群体共识（Decentralized），还有的是蜂王加横向交流的混合版（Hybrid）。问题是：在什么环境里，哪种策略能活下来？

---

⚗️ 实验：260 场"饥饿游戏"

论文的实验设计堪称"控制变量法的教科书"。他们干了这么几件事：

第一，锁死所有可以锁的变量。 同一套工具 API、同一套 prompt 模板、同一种计算预算分配。多 agent 团队不拿更多算力——n 个 agent 的队伍，每个 agent 的推理轮次跟着缩。一条解释路径被堵死了："因为多烧了算力，所以成绩好"。

第二，覆盖足够多的"生态位"。 选了六个基准测试，涵盖了从金融分析到 Minecraft 规划、从软件工程到命令行操作的广泛任务：

基准测试	任务性质	工具数	一句话
Finance-Agent	金融推理，可分解	5	入门级分析师，查新闻、读财报、综合判断
BrowseComp-Plus	网页信息检索	—	跨网站定位信息
WorkBench	商业活动规划	16	工具最多的场景，堪称"瑞士军刀测试"
SWE-bench Verified	软件工程	7	修 GitHub issue，程序员的日常
Terminal-Bench	CLI 操作	2	系统管理、安全、ML 任务
PlanCraft	顺序规划	4	Minecraft 里的生存指南

第三，跨三个 LLM 家族，九个模型。 OpenAI（GPT-5-nano/mini/5）、Google（Gemini-2.0/2.5 Flash, 2.5 Pro）、Anthropic（Claude Sonnet 3.7/4/4.5），构成了一条从 Intelligence Index 42 到 71 的能力谱系。

每个基准 × 每族三个模型 × 五种架构 = 260 个独立配置。每个配置跑 50–100 个实例。这不是调参——这是在做系统级的对照实验。

---

📐 三大缩放铁律

所有数据灌入一个 20 参数的回归模型。噪声退去之后，三条铁律露了出来。

#### 铁律一：基线悖论——单 agent 越强，协作越亏

论文最核心的发现。回归模型里有一个交互项，系数大得惊人：P_SA × log(1+n_a) 的 β = -0.236，p = 0.004。

翻译成人话：单 agent 的基线性能一旦跨过大约 45% 准确率这个坎，每多加一个 agent，性能就开始往下掉。不是"收益递减"——是"干赔不赚"。论文管它叫"能力饱和效应"（capability-saturation effect）。

说白了：你一个人已经够用了，再加人就是添乱。

PlanCraft 是最惨烈的例子。单 agent 的平均准确率是 56.8%，属于"够用"的范畴。然后你看多 agent 的表现——Independent 架构直接砸到 17%（降 70%），最好的 Hybrid 也只能做到 34.6%（降 39.1%）。为什么？

翻看执行轨迹，原因一目了然。单 agent 做 PlanCraft 的步骤简洁得令人发指：查配方 → 放材料 → 合成，三步搞定。而 Centralized MAS 呢？Agent 1 在研究配方（冗余），Agent 2 在检查库存（又冗余），Agent 3 才真正开始执行。三个聪明人花了两倍的时间，做了一件一个人三秒钟就能搞定的事。

> 小贴士：这是所谓的"协调税"（coordination tax）——通信、同步、共识这些多 agent 架构必须支付的固定成本。当任务本身足够简单，这笔税就变成了净亏损。

#### 铁律二：工具越多，协作越贵

基线悖论说的是"单 agent 够强就别加人"。第二条铁律补了后半句：工具多了，也别加人。

回归模型里，E_c × T 的 β = -0.096，p = 0.002。T 是工具数量，E_c 是协调效率。交互项为负——工具越多，多 agent 架构的协调效率跌得越狠。

WorkBench（16 个工具）是最佳注脚。在这个基准上，最好的 MAS 架构（Decentralized）也才比单 agent 高出 5.6%，Independent 直接亏了 11%。16 个工具，意味着每个 agent 的动作空间极大。你调了 Slack，我改了 Google Calendar，他动了什么没人知道。信息碎片化的代价，在工具密集的环境里，指数级放大。

反过来，Finance-Agent 只有 5 个工具，Centralized 架构却砸出了 +80.8% 的收益。五个工具，刚好够拆成几个专注的子任务，每块交给一个 agent 单干，编排器最后综合。这就是"任务可分解性"和"工具数量"的黄金交叉。

#### 铁律三：错误传播的几何差异

论文引入了一个精妙的指标：错误放大因子（error amplification factor），定义为 A_e^task = (1 - P_MAS) / (1 - P_SAS)。数值大于 1，说明多 agent 系统比单 agent 犯了更多的错。

五种架构的错误放大因子如下：

架构	错误放大因子	一句话
Single-Agent	1.0×	基准线
Centralized	4.4×	有验证瓶颈，错误可控
Hybrid	5.1×	横向通信带来额外污染
Decentralized	7.8×	七嘴八舌，以讹传讹
Independent	17.2×	各干各的，没人纠错，灾难性放大

Independent 架构最危险——错误放大了 17.2 倍。 原因？它既没集中式验证（如 Centralized），也没对等辩论（如 Decentralized）。每个 agent 闷头干活，产出丢给聚合器一拼了事。agent A 犯了个小错，没人发现，没人在意。就像一家没有质检的工厂——次品率不可能降，只会升。

论文还对错误类型做了分类。在 Centralized 架构下，上下文遗漏（context omission）减少了 66.8%，逻辑矛盾减少了 36.4%。但在 Hybrid 架构下，数值漂移（numerical drift）反而恶化了——因为横向通信引入了更多"二手信息"，中间经过的环节越多，失真越严重。

---

🔬 错误的解剖学

如果我们把多 agent 协作比作一场手术，那错误分析就是病理报告。论文把错误分成了四类：

错误类型	单 agent 基线率	Centralized 后	变化
逻辑矛盾	12.3-18.7%	9.1%	↓36.4%
数值漂移	20.9-24.1%	18.3%	↓24%
上下文遗漏	15.8-25.2%	8.3%	↓66.8%
协调失败	—（MAS 专属）	1.8%	新引入

Centralized 的"减错"效果很显著——上下文遗漏砍掉了将近三分之二的错误。机制很朴素：编排器当"守门人"，每个回合结束，重新过一遍所有 agent 的输出，发现缺漏就喊补。

但有个细节让人警醒：Hybrid 的协调失败率高达 12.4%。加了横向通信通道之后，编排器反而更难控场。信息从两个通道同时流动——"官方渠道"和"私聊"——一致性维护的难度不是线性增加。是爆炸。

> 小贴士：所谓"协调失败"（coordination failure），指两个或更多 agent 对同一事实给出了相互矛盾的判断，而系统未能解决这一冲突。这在 Hybrid 架构中最为常见——因为 agent 之间可以直接通信，可能形成"小团体共识"，绕过了编排器的全局视野。

---

🧭 架构选择的导航图

所有这些分析，最终落在一个很实际的问题上：拿到一个任务，该用哪种架构？

论文的训练结果，给了一个挺硬气的答案：他们的回归模型在留置配置上预测最佳架构的准确率到了 87%。对照一下——随机选只有 20% 的命中率，纯靠模型能力也就 54%。架构-任务对齐这件事，确实有规律可循，而且这规律能被量化地抓出来。

简化成实用指南：

如果你的任务...	推荐架构	典型场景
单 agent 已经做得很好（>45%）	Single-Agent	PlanCraft、常规代码生成
可分解、工具少（≤5）、单 agent 吃力（<35%）	Centralized	金融分析、研究报告
工具多但单 agent 还行（~60%）	Decentralized	WorkBench、多工具编排
极度复杂、需要深度验证	Hybrid（谨慎使用）	需多层审批的关键决策

这里的核心决策变量是 **P*_SA ≈ 0.45。如果你不先测一下单 agent 的基线就跑多 agent 实验，等于闭着眼睛往墙上撞。

还有一个常被忽略的细节：LLM 家族对架构的敏感度是不同的。论文发现，Anthropic 的模型在 Centralized 架构中表现出了独特的"异质混合收益"——把不同能力的 Claude 模型混在一起组队，比全用同一个模型效果更好。而 OpenAI 的模型则对通信质量更敏感，Decentralized 架构中如果消息写得不清楚，性能掉得比 Google 的模型更快。最大跨家族架构缩放斜率差异只有 0.023（CV < 0.02），说明整体趋势稳健，但家族间的"个性"差异值得关注。

---

💰 效率的账单

性能和效率之间，永远有一本账要算。论文没有回避这个问题——他们算了一笔冷冰冰的 token 经济账：

架构	每千 token 的成功次数	相对单 agent 效率
Single-Agent	67.7	1.00×
Independent	42.4	0.63×
Decentralized	23.9	0.35×
Centralized	21.5	0.32×
Hybrid	13.6	0.20×

Hybrid 烧的 token 是单 agent 的六倍，每千 token 产出的成功次数却只有单 agent 的五分之一。算一笔账：Hybrid 要达到和单 agent 相同的成功总量，得烧 30 倍的 token。 这不是"效率低"三个字能概括的——这是烧钱竞赛。

论文还估算了美元成本。OpenAI 的 Hybrid，每提升 1% 成功率约 $0.008；换 Anthropic 的模型，跳到 $0.024——三倍。这些数字说了一件事：多 agent 系统的真正成本不在开发，在推理。 每多加一个 agent、多跑一轮通信，留下的不只是代码复杂度，还有一张默默涨价的 token 账单。

---

🔮 未竟之路：这仅仅是开端

这篇论文标题里有个词很容易被漏掉——"Towards"（走向）。它自己先摊了牌：这不过是第一步。

几个明显的局限，值得提一笔：

R² 还卡在 0.37–0.41。一半以上的性能方差，模型还抓不住。可能是任务里某些微妙的结构、prompt 措辞的细微差别，甚至 agent 人格化的效果——这些东西至今还在回归模型的盲区里。

Intelligence Index 只跑了 42–71 这个区间。要是将来冒出指数级更强的模型——Intelligence Index 破 100、破 200——这些缩放定律还站得住吗？论文的集群鲁棒推断说，能力饱和效应是最稳的发现。但"饱和"这个词的定义，在更强的模型面前，可能得重写。

最大的团队只有 9 个 agent。而论文自己发现，推理轮次随 agent 数量呈幂律增长——T = 2.72 × (n + 0.5)^1.724，指数干到了 1.724。按这个曲线往外推，100 个 agent 的队伍，光推理轮次就要破 7000。这还没算 token、没算协调开销。还没到那个规模，系统可能先在经济上崩了。

集群鲁棒推断扒出了隐藏的不稳定性。在数据集级别做聚类校正后，有些预测变量的标准误膨胀了 2.9 倍。跨任务的泛化，依然是个开放问题——六个基准上成立的规律，换七个，可能就没那么稳了。

但话说回来，这篇论文真正的贡献，不是一个终极答案。它搭了一个可以迭代的框架。配置、轨迹、评估代码，全开源了。后来者可以在这框架上换新模型、试新架构、测新任务——每跑一次实验，就给"Agent 系统缩放科学"这栋楼添一块砖。

---

📚 参考文献

1. Kim, Y., Gu, K., Park, C., et al.** *Towards a Science of Scaling Agent Systems.* arXiv:2512.08296v3, 2026. — 本文核心文献，提出了 Agent 系统缩放的定量框架，涵盖 260 个配置、5 种架构、6 个基准和 3 个 LLM 家族。

2. Kaplan, J., McCandlish, S., Henighan, T., et al. *Scaling Laws for Neural Language Models.* arXiv:2001.08361, 2020. — 神经缩放定律的开山之作，确立了模型性能随参数量、数据量和计算量的幂律关系，为本文的"协作缩放"研究提供了对偶参照。

3. Park, J. S., O'Brien, J. C., Cai, C. J., et al. *Generative Agents: Interactive Simulacra of Human Behavior.* UIST, 2023. — 多智能体交互模拟的奠基性工作，启发了本文对 agent 间通信拓扑和协调机制的实验设计。

4. Li, G., Hammoud, H., Itani, H., et al. *CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society.* NeurIPS, 2023. — 多 LLM agent 通信框架的代表作之一，为本文的角色扮演和通信模式设计提供了方法论参考。

5. Chowdhery, A., Narang, S., Devlin, J., et al. *PaLM: Scaling Language Modeling with Pathways.* JMLR, 2023. — 大规模语言模型训练与缩放的系统性研究，为本文使用的 LLM 能力指标（Intelligence Index）提供了基础参照系。

众智之困：260次实验揭开多Agent协作的残酷真相

🧬 Agent 世界的物种分类学

⚗️ 实验：260 场"饥饿游戏"

📐 三大缩放铁律

🔬 错误的解剖学

🧭 架构选择的导航图

💰 效率的账单

🔮 未竟之路：这仅仅是开端

📚 参考文献

🌟 智谱 GLM-5 已上线