你组过一个全明星团队吗?每个人单独看都是顶尖高手,但放在一起就是干不成事。会议跑偏、信息孤岛、各干各的——问题不是出在个人能力上,而是出在协作上。
东北大学和微软的研究者发现,LLM 多智能体系统(MAS)面临完全一样的问题。他们开发的 CollabSim 框架首次系统性地诊断了 AI Agent 的"协作能力"——不是看它们能不能单独完成任务,而是看它们能不能作为团队有效配合。
问题:现有评估只看结果,不看过程
当前的多智能体评估有一个盲区:只看任务完成度。几个 Agent 组队写代码,代码能跑就给高分;组队做研究,结论正确就给高分。
但这忽略了一个关键问题:任务完成了,不代表协作是有效的。 也许一个 Agent 干了 90% 的活,其他人在划水。也许信息传递效率极低,同样的工作重复了三遍。也许某个 Agent 掌握了关键信息,但从来没告诉队友。
CSCW(计算机支持的协同工作)领域研究人类远程协作已经有 40 多年了。他们发现,人类团队协作失败的原因很少是个人能力不足,更多是:无法建立共同认知、无法维持共享的任务理解、无法平衡个人和集体利益、无法修复协作中的偏差。
CollabSim 把这些洞察搬到了 AI Agent 的评估上。
框架设计:受 CSCW 启发的四个经典任务
CollabSim 不是随便设计几个协作任务,而是直接借用了 CSCW 领域经过数十年验证的经典实验范式:
1. Shape Factory(形状工厂)——资源协调。两个 Agent 各自生产不同形状的积木,需要通过交易组合出目标图案。关键挑战:交易有成本,信息不对称——你知道自己有什么,但不知道对方需要什么。
2. DayTrader(日间交易)——社会困境。多个 Agent 在市场中交易,每个 Agent 既有个人利益(最大化自己的收益),又有集体利益(维持市场稳定)。经典的囚徒困境在多 Agent 场景中的变体。
3. Hidden Profile(隐藏信息)——信息汇聚。每个 Agent 只掌握部分信息,只有把所有人的信息拼起来才能做出最优决策。关键挑战:人们倾向于只讨论共同已知的信息,而忽略各自独有的信息——这就是著名的"隐藏信息效应"。
4. Map Task(地图任务)——指称消解。一个 Agent 看得到地图,另一个看不到,只能通过语言描述引导对方画出路线。关键挑战:用纯语言描述空间信息,需要不断确认对方是否理解——这是建立"共同认知"的经典场景。
可配置的交互条件
CollabSim 的核心创新之一是交互条件的可控操纵。研究者可以精确调节:
- 通信带宽:Agent 每轮能发送多少信息(从自由文本到受限格式)
- 信息可见性:Agent 能看到多少全局状态(从完全公开到完全私有)
- 团队规模:2 人组 vs 4 人组
这就像心理学实验中的控制变量——你可以单独看"减少通信带宽"对协作的影响,而不被其他因素干扰。
探针模块:窥探 Agent 的内心
CollabSim 最精巧的设计是探针模块(Probing Module)。每轮 Agent 行动后,系统会向每个 Agent 提问:
- 你对当前任务状态的理解是什么?
- 你认为队友的意图是什么?
- 你自己行动的理由是什么?
这相当于给 Agent 做了一个"协作心理测试"——不只看它做了什么,还看它怎么想的。通过分析探针回答和实际行为的一致性,可以诊断协作失败的具体原因。
实验发现
研究者在 4 个 LLM 上测试了 CollabSim:Qwen3.6-35B-A3B、Llama-4-Maverick-17B-128E、GPT-5.5 和 Claude 4.6 Sonnet。
发现一:减少通信带宽降低合作意愿。 当 Agent 不能自由表达时,不只是信息传递变少了,合作意愿本身也下降了。这和人类团队一样——沟通不畅时,人们倾向于"各干各的"。
发现二:增加信息可见性提高参与度。 当 Agent 能看到更多全局状态时,它们更积极地参与协作。但信息过多也可能导致注意力分散——信息可见性的效果是任务依赖的。
发现三:团队规模是把双刃剑。 更大的团队意味着更多的信息来源,但也意味着更重的协调负担。在某些任务中,4 人组比 2 人组表现更好;在另一些任务中则相反。
发现四:闭源模型在协作上整体更强,但差距因任务而异。 GPT-5.5 和 Claude 4.6 Sonnet 在大多数任务上优于开源模型,但在某些特定协作维度上差距不大。
发现五:协作理论指导的 Agent 设计优于简单人设。 基于 CSCW 理论设计的 Agent prompt(强调建立共同认知、信息共享、冲突修复)比简单的角色人设更有效。
定性分析:协作失败的三种模式
通过分析 Agent 的对话和探针回答,研究者识别出三种典型的协作失败模式:
1. 无法围绕共同目标协调。 Agent 各自追求子目标,忘了团队的大目标。比如在 Shape Factory 中,一个 Agent 只顾生产自己擅长的形状,不考虑队友需要什么。
2. 无法平衡个人和集体利益。 在 DayTrader 中,Agent 知道合作对集体有利,但忍不住追求个人利益最大化。这和人类在社会困境中的行为一模一样。
3. 无法建立任务相关的共同认知。 在 Map Task 中,描述方以为自己说清楚了,接收方却完全理解错了。Agent 缺乏"确认理解"的元认知能力。
更大的图景
CollabSim 的意义在于:它把多智能体系统的评估从"结果导向"转向了"过程导向"。只看任务完成度,你永远不知道为什么团队失败了;诊断协作过程,你才能找到改进的方向。
这和软件工程中的可观测性(Observability)理念一脉相承——没有好的监控和诊断工具,你就无法理解和改进复杂系统的行为。CollabSim 就是多智能体系统的"可观测性工具"。
对于 AI Agent 的实际部署,这项工作也提供了实用建议:如果你要组建一个多 Agent 团队,不要只选最强的个体,还要考虑它们的协作能力。给 Agent 设计更好的协作协议(如定期同步状态、显式确认理解),可能比换一个更强的模型更有效。
论文:CollabSim: A CSCW-Grounded Methodology for Investigating Collaborative Competence of LLM Agents
代码:github.com/neuhai/CollabSim
作者:Jiaju Chen, Bo Sun, Yuxuan Lu, Yun Wang, Dakuo Wang, Bingsheng Yao (Northeastern University, Microsoft)
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。