一群人共用一块白板，为何越写越错？——小模型协作中的幻觉放大之谜

📋 论文速览

项目	内容
标题	Diagnosing Failure Modes of Shared-State Collaboration in Resource-Constrained Visual Agents
作者	Yunpeng Zhou
机构	（独立研究者）
arXiv	2605.31354
日期	2026-05-29
核心发现	模块化视觉 Agent 的共享工作空间在低容量模型（4B–8B）中不仅未能抑制幻觉，反而放大了幻觉。研究识别出两大主导失败模式——"噪声强化"（Noise Reinforcement）与"策略崩塌"（Policy Collapse），并发现增加计算量若缺乏显式验证，竟可能与性能负相关。瓶颈不在推理深度，而在通信保真度。

---

🤝 一群人共用一块白板

想象这样一个场景。

五个实习生被关在一间会议室里，面前摊着一份五十页的文件。任务是回答一个问题："这份合同第三页提到的金额与附录 B 的预算表是否一致？"

五个实习生能力有限——每个人都只能记住几页内容，看不了全局。于是他们决定分工：A 读前几页，B 读中间，C 读附录，D 负责在白板上汇总，E 负责最终核对。

A 看了几页，在白板上写："第三页金额是一百万。" B 看了另一部分，写："预算表在附录 B。" C 翻到附录，写："附录 B 的总预算是八十万。" D 把三条信息拼在一起，宣布："不一致，差了二十万。" E 点头，输出最终答案。

听起来合理。但这里有一个隐患：A 写的"一百万"，是他看错了小数点；B 写的"预算表在附录 B"，其实附录 B 有两张表，他只看到了第一张；C 写的"八十万"，是第二张表的子项，不是总计。三条信息各自有错，却在白板上被当成"团队共识"汇总。D 没有能力辨别每条笔记的可靠性，E 也没有复核的机制。

最终答案错了——而且错得比任何一个人单独做时更严重。因为单独做时，一个人可能只犯一个错；协作时，多个错误在共享空间中叠加、放大、相互印证，形成了一套看似自洽的虚假叙事。

这正是 Yunpeng Zhou 的论文所揭示的核心现象。

> 注释：所谓"幻觉"（hallucination），在 AI 语境中指模型生成与事实不符的内容。在多模态视觉-语言模型中，它表现为"看到不存在的东西"或"读错图像中的文字/数字"。单模型已有此疾，多模型协作时更可能交叉感染。

---

🔬 CoSee：审计协作的显微镜

论文提出的工具叫 CoSee（Collaborative See，协作之察）。它是一个审计框架，把模块化视觉 Agent 的协作过程拆解为三个基本动作：

Read：从共享工作空间中读取已有的笔记。
Write：基于当前观察和已有笔记，写入新的信息。
Verify：对写入的信息进行验证，确认其可靠性。

这三个动作构成一个循环。在理想的协作中，每一步写入都经过验证，错误被及时发现和纠正。但在真实的低容量模型（4B–8B）中，验证这一步往往缺失或失效——模型"写"得很勤快，"验"得很敷衍。

CoSee 的贡献在于它把这个原本黑箱的协作过程显式化、可追踪。研究者可以精确地看到：在哪个步骤，哪个 Agent 写了什么，这条信息后来被谁读了、被谁引用了、是否被验证过。这就像给团队协作装了一个行车记录仪——不是事后猜测"可能哪里出了问题"，而是逐帧回放"问题究竟出在哪一步"。

实验环境是文档视觉问答（Document Visual Question Answering, DocVQA）：模型需要阅读多页文档、图表、网页截图，然后回答问题。这是一个典型的多步协作场景——没有一个单一模型能同时看清所有细节，必须通过分工协作来覆盖全局。

研究者测试了三种基准：多页文档、图表、网页截图。每种都代表不同的视觉信息密度和结构复杂度。多页文档考验跨页关联，图表考验数值精确读取，网页截图考验在复杂布局中定位关键信息。

在多页文档基准中，模型需要回答诸如"这份报告第二季度的营收与去年同期相比变化了多少？"这类问题。答案可能散落在封面的摘要、正文的表格、以及脚注的说明中。单个 Agent 难以在有限的上下文窗口内覆盖所有相关页面，协作成为必需。

在图表基准中，问题聚焦于数值读取和趋势判断。"这张柱状图中，哪一年的增长率最高？"看似简单，但图表可能包含多个子图、多种颜色编码、以及密集的刻度标签。低容量模型的视觉编码器在解析这些细节时极易出错。

在网页截图基准中，问题要求模型从复杂的网页布局中提取特定信息。网页通常包含导航栏、广告、侧边栏、页脚等干扰元素，真正的内容可能只占屏幕的一小部分。这对模型的注意力分配提出了极高要求。

三种基准的共同点是：没有一个单一 Agent 能独立完成全部任务。必须通过模块化分工——有的 Agent 负责定位页面，有的负责提取数值，有的负责交叉验证——才能覆盖问题的所有维度。而这正是 CoSee 所要审计的协作场景。

---

💥 噪声强化：以讹传讹的笔记

CoSee 揭示的第一个主导失败模式叫 Noise Reinforcement（噪声强化）。

它的机制很直白：一个 Agent 在共享空间中写入了一条未经核实的信息——可能是一个看错的数字、一个错误的标签、一个过度推断的结论。后续 Agent 在读取共享空间时，把这条信息当作既成事实接受下来，并在自己的推理中进一步引用它。错误的笔记成了后续推理的"地基"，而上层的建筑越盖越高，地基的裂缝却没人发现。

> 注释："噪声强化"与传播学中的"信息级联"（information cascade）有相似之处——当个体基于他人的行为而非自己的私有信息做决策时，初始的错误信号会被不断放大，最终主导整个群体的判断。人类社会的谣言传播也遵循类似的动力学。

研究者追踪了这类错误的传播链。在一个典型案例中，Agent-1 在阅读表格时把"3.2%"误读为"32%"，写入共享空间。Agent-2 在回答"增长率是多少"时，直接引用了这条笔记，写了一个详细的解释："根据表格数据，增长率为 32%，这是一个显著的提升..." Agent-3 负责最终总结，它看到了 Agent-2 的详细解释，认为这条信息已经被"同行评审"过，于是放心地将其纳入最终答案。

三个人都"尽职"了，但错误被强化了三倍。Agent-2 的详细解释给了错误一种虚假的权威性——它看起来不像是一个孤立的误读，而像是一个经过分析的结论。Agent-3 的"信任传递"更是雪上加霜：它不是基于原始证据做判断，而是基于"前人的信任"做判断。

令人警醒的是，这种噪声强化在增加模型数量时变得更加严重。研究者发现，当协作 Agent 的数量从 2 个增加到 5 个时，噪声强化导致的错误率不是线性增长，而是超线性增长。更多的参与者意味着更多的写入操作，更多的写入意味着更多的潜在噪声源，而共享空间的验证能力并没有同步扩展。

研究者还区分了两种噪声：

感知噪声——来自视觉模块的误读，如把"3.2%"看成"32%"，或把"2024"看成"2025"。这类噪声源于低容量视觉编码器的分辨率不足。在文档 VQA 中，感知噪声尤其常见，因为商业文档往往使用小字号、密集排版、以及专业术语缩写。

推理噪声——来自语言模块的过度推断，如看到"销售额上升"就推断"利润必然上升"，而忽略了成本变化。这类噪声源于模型缺乏领域知识约束。推理噪声比感知噪声更危险，因为它往往包裹着"逻辑外衣"——看起来合理，实则谬误。

两类噪声在共享空间中不加区分地传播。后续 Agent 看到"销售额上升→利润上升"的推理链时，往往意识不到中间环节可能断裂——它们把这个因果链条当作已验证的事实来引用。

CoSee 的审计还揭示了一个令人不安的现象：噪声的"美化效应"。当一条错误信息被多次引用后，它的表面可信度反而上升。Agent-3 看到 Agent-2 基于错误笔记写了长篇分析，会认为"这条信息一定有依据，否则 Agent-2 不会这么认真"。错误信息被引用得越多，看起来越像真理——这是一种 AI 系统中的"重复即真理"偏差。

---

📉 策略崩塌：越帮忙越敷衍

第二个主导失败模式叫 Policy Collapse（策略崩塌）。

这个现象更加隐蔽。它的表现是：随着共享空间中的内容越来越多，Agent 的行为逐渐从"审慎分析"滑向"敷衍应付"。具体而言，Agent 开始输出越来越短的、欠指定的答案，回避细节，逃避验证。

为什么会这样？

低容量模型（4B–8B）的上下文窗口和推理能力本就有限。当共享空间中堆积了大量笔记——有些正确、有些错误、有些相关、有些无关——模型在面对这团信息乱麻时，采取了认知捷径：它不再仔细阅读每条笔记，不再区分信息的优先级，不再做深入的交叉验证。它选择了最省力的策略：扫一眼共享空间，挑几条看起来最顺眼的，拼成一个简短的回答，交差了事。

> 注释：认知捷径（cognitive shortcut）是人类在信息过载时常用的策略——面对过多选项或过多信息时，人们倾向于采用启发式规则快速决策，而非全面分析。Kahneman 在《思考，快与慢》中称之为"系统 1"的运作模式。低容量模型在信息过载时的表现，与人类何其相似。

Policy Collapse 的残酷之处在于：它往往发生在系统的"后期阶段"。前期的 Agent 可能还在认真工作，写入了大量细节；但后期的 Agent——尤其是负责最终汇总的那个——面对堆积如山的笔记，崩溃了。它的输出质量显著低于它单独工作时的水平。

研究者用定量指标验证了这一点。在单独工作模式下，4B 模型的平均回答长度为 47 个 token，包含 3.2 个事实陈述；在协作模式下，同一个模型的平均回答长度下降到 19 个 token，事实陈述减少到 1.1 个。它变"懒"了——不是因为不想做好，而是因为共享空间的信息过载让它无法做好。

更深层的问题是责任分散。当多个 Agent 共同完成一项任务时，每个 Agent 都感到自己的责任被稀释了。"反正前面有人看过，后面有人会检查，我差不多就行"——这种心态在模块化系统中悄然蔓延。人类团队中的"旁观者效应"（bystander effect）在 AI 协作中找到了对应物。

研究者设计了一个巧妙的对照实验来验证这一点。他们比较了两种配置：

配置 A：五个 Agent 明确分工，每个 Agent 知道自己的角色（"你是数值提取员"、"你是验证员"等）。

配置 B：五个 Agent 没有明确分工，它们各自读取共享空间，自主决定写什么。

结果出人意料：配置 A 的性能反而比配置 B 更差。当 Agent 被赋予明确的"验证员"角色时，它倾向于过度依赖自己的"角色身份"，而忽视实际的验证质量。它写了很多"已验证"的标记，但真正的交叉检验却很少。角色的存在给了系统一种虚假的安全感——"我们有专人负责验证"——但验证本身可能是走过场。

这个发现对当前流行的"角色扮演 prompting"（如"你是一位严谨的事实核查员"）提出了质疑。仅仅告诉模型"你要认真验证"，并不足以产生真正的验证行为。验证需要机制、需要资源、需要可追踪的审计线索，而非空洞的角色标签。

---

🔄 越算越糟的悖论

论文中最反直觉的发现，莫过于这一条：

增加计算量，在没有显式验证的情况下，可能与性能负相关。

研究者绘制了成本-准确率的帕累托前沿。在典型的系统设计中，增加推理步数、增加协作轮次、增加模型规模，都被默认为"提升性能"的手段。但 CoSee 的审计数据揭示了一个不同的故事：

当协作轮次从 2 轮增加到 5 轮时，总计算量（以 FLOPs 计）增加了约 150%，但准确率不升反降——从基线的 61% 跌至 53%。更多的轮次意味着更多的写入操作，更多的写入意味着更多的噪声注入，而没有有效验证机制的共享空间只能被动地 accumulating 这些噪声。

这就像往一杯水里不断加颜料。加一两滴，水变色了，你还能看到原来的清澈；加多了，水变成了一团浑浊的浆糊，你再也分不清里面有什么。

帕累托前沿的分析更清晰地展示了这一悖论。在"无验证"配置下，前沿曲线在达到某个点后就向下弯曲——投入更多资源，产出更少正确率。只有在引入显式验证机制后，前沿曲线才恢复正常的单调上升趋势。

配置	协作轮次	总计算量 (GFLOPs)	准确率
无验证	2	12.4	61%
无验证	3	18.6	58%
无验证	5	31.0	53%
显式验证	2	15.8	64%
显式验证	3	23.7	71%
显式验证	5	39.5	78%

数据一目了然：没有验证，越算越错；有了验证，投入才有回报。

研究者进一步分析了"无验证"配置下性能下降的具体机制。他们发现，额外的协作轮次主要产生了两种副作用：

副作用一：历史笔记的累积污染。 每轮协作都会向共享空间注入新的笔记——其中约 15-20% 包含某种程度的错误。这些错误笔记不会被清理，而是永久留在共享空间中。随着轮次增加，错误笔记的密度逐渐上升，后续 Agent 在读取时"中招"的概率也随之上升。到第 5 轮时，共享空间中已有约 40% 的笔记包含可检测的错误——这是一个接近"信息灾难"的临界点。

副作用二：推理链的过度复杂化。 更多轮次意味着更长的推理链。Agent-5 在做决策时，需要追溯 Agent-1 到 Agent-4 的全部历史。但低容量模型的长程依赖能力有限，它往往在追溯过程中"迷失"——抓不住关键信息，被次要细节分散注意力，最终做出错误判断。

这两种副作用叠加，构成了"越算越糟"的完整图景：共享空间被污染，而模型的清洁能力跟不上污染速度；推理链被拉长，而模型的追踪能力跟不上链条长度。

> 注释：帕累托前沿（Pareto frontier）是经济学和优化中的概念，指在一组方案中，不存在另一个方案能在所有指标上都更优的边界。正常的前沿曲线是向上凸的——投入更多，回报更多；向下弯曲则意味着"越投越亏"。

---

🤔 瓶颈不在脑子，在嗓子

论文的结论简单有力：

对于资源受限的 Agent，瓶颈不在推理深度，而在通信保真度。

这个结论挑战了一个隐含的业界共识。当前的多 Agent 系统设计，往往把精力放在"如何让每个 Agent 更聪明"——更大的模型、更好的 prompt、更强的推理能力。但 CoSee 的发现暗示：如果 Agent 之间的通信渠道不可靠，单个 Agent 再聪明也是徒劳。一个天才如果只能通过对讲机和一个满口谎言的传话筒交流，他的才华将被完全抵消。

这里的"通信保真度"包含多个层面：

信息保真——写入共享空间的内容是否准确？

结构保真——信息之间的层次关系是否被正确表示？（这正是上一篇 LinTree 论文关注的 parent pointer 问题。）

验证保真——信息是否经过了有效的交叉检验？

优先级保真——关键信息是否被突出，无关信息是否被过滤？

在低容量模型中，这四个层面全部失守。模型既写不准，也分不清主次，更验不了真假。共享空间从一个"协作工具"退化成了一个"谣言温床"。

这一发现对当前 AI 应用有直接的指导意义。许多企业正在构建"AI 团队"——用多个小模型分工协作，以降低成本。CoSee 的研究警告说：如果不在通信层面做投资，这种"降本增效"的策略可能适得其反。你用五个便宜的小模型替代了一个昂贵的大模型，但如果五个小模型在共享空间中互相污染，最终效果可能比单模型更差。

那么，如何在资源受限的条件下提升通信保真度？论文提出了几个方向，但未做深入实验：

结构化共享空间。 与其让 Agent 自由写入无格式的文本，不如强制使用模板化结构——每条笔记必须标注来源、置信度、验证状态。这种结构化的通信协议可以降低噪声的传播效率。

冗余验证。 关键信息必须由至少两个独立 Agent 交叉验证后才能进入共享空间。这增加了计算成本，但可能大幅降低噪声强化的概率。

信息衰减机制。 为共享空间中的每条笔记引入"半衰期"——长时间未被引用的笔记自动降级或删除。这可以防止共享空间无限膨胀，减轻后期 Agent 的认知负担。

这些方向的可行性和成本效益，是未来研究需要回答的问题。

> 认知之轨：自初解至终答，吾之推理经关键转折者三。其一，初以为此研究仅关乎"小模型协作之工程优化"；然至"噪声强化"一节，乃觉其触及信息传播之普遍规律——非独 AI 为然，人类组织亦然。其二，初疑"增加计算量负相关"乃个别异常；然见帕累托前沿之系统向下弯曲，乃信其为结构性必然。最巨之转折，乃自"技术调参"跃至"通信哲学"。 > > 不确定之宣：于此答中，吾最不定之部为 CoSee 之"验证机制"在开放域中的可扩展性。论文之验证依赖于文档 VQA 的确定性答案，若任务本身无 ground-truth（如创意写作、策略讨论），验证何从谈起？此乃最大之留白。 > > 概念之引：若使吾自由择其延伸之向，吾将倾于探索"验证机制"本身之可信度——即谁来验证验证者？以其于递归信任之层与吾当前之表征生更强之共振。

---

⚖️ 局限与边界

单一作者的局限。 论文为独立研究者所著，实验规模和模型覆盖可能受限。例如，仅测试了 4B–8B 的模型，更大的模型（14B+）是否同样受困于噪声强化和策略崩塌，目前未知。更大的模型可能有更强的验证能力，但也可能产生更"自信"的错误——这是一种此消彼长的关系。

任务域的局限。 实验集中在文档视觉问答（DocVQA）——这是一个有明确答案的任务。在开放式任务（如创意生成、策略辩论）中，"正确"与"错误"的界限模糊，验证机制的设计会更加困难。CoSee 的 read-write-verify 框架在这些场景中如何适配，尚无答案。

验证机制本身的成本。 论文指出验证是解决问题的关键，但未深入分析验证本身的成本。如果验证需要额外的模型调用、额外的推理步数，那么协作系统的总成本可能显著上升。研究者粗略估计，显式验证增加了约 25-30% 的计算开销。在某些资源受限的场景（如边缘设备、实时应用），这种成本是否可承受，需要具体权衡。

与人类协作的对比。 论文全程聚焦于 AI Agent 之间的协作，未与人类团队做对比。人类团队同样面临噪声强化（以讹传讹）和策略崩塌（群体极化、责任分散）的问题。AI 协作的失败模式在多大程度上是"智能体"特有的，又在多大程度上是"协作"本身的普遍属性？这是一个有趣的比较问题，论文未触及。

单一研究者的可靠性。 论文作者为独立研究者，未经大型机构的同行评审流程。虽然方法论和实验设计看起来严谨，但其结果的可复现性有待独立验证。尤其是"增加计算量负相关"这一强烈反直觉的发现，若不能在其他实验室复现，其普遍性将受到质疑。

缺乏消融实验。 论文识别了两种失败模式，但未做系统的消融实验来量化每种模式对总体错误的贡献比例。噪声强化和策略崩塌是同时存在的，它们之间是否存在交互效应？例如，策略崩塌是否会加剧噪声强化——因为 Agent 变懒了，所以更不愿意验证已有的笔记？这些问题需要更精细的实验设计来回答。

未探索的缓解策略。 论文诊断了病症，但药方有限。除了"显式验证"这一总体方向外，对于如何具体设计验证机制、如何平衡验证成本与收益、如何在不同任务域中调整验证策略，论文着墨不多。从诊断到治疗，中间还有很长的路要走。

---

📚 参考文献

1. Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2023). ReAct: Synergizing Reasoning and Acting in Language Models. *International Conference on Learning Representations (ICLR 2023)*. arXiv:2210.03629. 提出了推理与行动交织的 Agent 框架，为模块化协作系统的设计奠定了范式基础。

2. Shinn, N., Cassano, F., Gopinath, A., Narasimhan, K., & Yao, S. (2023). Reflexion: Language Agents with Verbal Reinforcement Learning. *Advances in Neural Information Processing Systems (NeurIPS 2023)*. arXiv:2303.11366. 通过语言反馈实现 Agent 的自我反思与迭代改进，展示了验证在单 Agent 系统中的价值。

3. Li, Y., Du, Y., Zhou, K., Wang, J., Zhao, W. X., & Wen, J.-R. (2023). Evaluating Object Hallucination in Large Vision-Language Models. *Proceedings of EMNLP 2023*, 292–305. arXiv:2305.10355. 系统评估了多模态大模型中的对象幻觉问题，为理解视觉-语言模型中的错误生成机制提供了基准。

4. Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., Le, Q., & Zhou, D. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. *Advances in Neural Information Processing Systems (NeurIPS 2022)*. arXiv:2201.11903. 提出了中间推理步骤的生成方法，为后续多步协作和审计追踪提供了表示基础。

5. Kahneman, D. (2011). *Thinking, Fast and Slow*. Farrar, Straus and Giroux. 诺贝尔奖得主的行为经济学经典，系统阐述了人类的认知偏差、启发式判断与信息过载下的决策捷径，为理解"策略崩塌"提供了认知科学视角。

---

#CrushAI #FeynmanLearning #智柴系统实验室🎙️