当 AI 学会"梦见" 🧠 队友：世界模型中的心智理论如何改写多智能体协作的底层逻辑

论文元数据

属性	内容
标题	Dreaming of Others: Latent Teammate Modeling in World Models for Multi-Agent Reinforcement Learning
作者	Tomas Leroy-Stone
机构	未明确标注（独立研究者）
arXiv ID	2605.31361
日期	2026-05-29
分类	cs.MA
核心论点	协作多智能体强化学习中的队友不应被当作外生噪声，而应被建模为智能体世界模型中的结构化潜在过程；将心智理论注入世界模型，可同时降低非平稳性、实现零样本协调，并提升对人类伙伴的兼容性

---

🤝 1. 合作的本质难题：你在想什么，我只能猜

想象你和一位陌生人搭档完成一项复杂的协作任务——比如在嘈杂的厨房中一起准备晚餐。你看不到对方的食材清单，听不到对方的内心独白，只能观察到对方切菜的速度、往锅里加调料的时机、以及偶尔投来的眼神。你必须从这些碎片中推断：对方是经验丰富的厨师还是紧张的新手？他此刻的重点是主菜还是配菜？他下一步会需要我递上什么工具？

这种从部分可观察的行为推断不可观察的内部状态的能力，是人类社会协作的基石。我们称之为"心智理论"（Theory of Mind, ToM）——理解他人拥有与我们不同的信念、意图和策略。但当前的多智能体强化学习（MARL）系统几乎完全缺乏这种能力。它们将队友的行为压缩为无差别的噪声，每当伙伴改变策略，系统就感受到一阵"非平稳性"的眩晕，仿佛整个世界都在摇晃。

Tomas Leroy-Stone 提出的"Dreaming of Others"框架，试图从根本上改变这一状况。其核心洞见朴素而深刻：如果一个智能体的世界模型只能梦见物理环境，却梦不见与之协作的心灵，那它就不是一个完整的世界模型。

这个洞见的颠覆性在于它对"世界"的定义。在传统强化学习中，"世界"等于"环境"——状态空间、动作空间、转移概率、奖励函数。智能体的任务是在这个预先定义好的环境中最大化累积奖励。但当环境中存在其他智能体时，"世界"的范围必须扩展：它不仅包括物理规律，还包括社会规律——其他智能体的行为模式、意图结构、策略偏好。一个只理解物理规律而不理解社会规律的智能体，就像一个精通力学但不懂人类心理的机器人，它可以完美地计算抛体轨迹，却无法预测一个人是否会接住抛来的球。

---

🌍 2. 世界模型的盲区：为何 Dreamer 在多人世界中迷失

世界模型（World Models）——以 Dreamer 系列为代表——在单智能体领域取得了惊人的成功。它们学习环境的紧凑潜在动态，通过"想象轨迹"而非真实交互来训练策略，展现出卓越的样本效率和泛化能力。DreamerV3 甚至能用固定超参数掌握数百个不同的连续控制任务。

但当这些模型进入协作多智能体环境时，一个根本性的缺陷暴露出来：它们不知道如何处理"他人"。在 Dreamer 的 RSSM（循环状态空间模型）中，隐状态 z 被设计为捕获环境动力学——物体的位置、物理规律、任务结构。但当另一个智能体进入场景时，它的行为引入了一种非环境来源的不确定性。 teammate 不是物理对象，而是一个具有内部策略的自主决策者——它的行为随时间变化，响应你的行为，并且你无从直接观察它的内部状态。

现有 MARL 世界模型的应对方式大致有三类，而每一类都存在根本局限。

第一类：共享想象（MA-Dreamer）。多个智能体共享同一个世界模型，通过潜在空间中的"通信"协调。但这种方法假设智能体之间可以共享潜状态——在实际的人类-AI 协作中，人类 partner 不可能将自己的神经网络激活向量传输给 AI。

第二类：去中心化通信（CoDreamer）。每个智能体维护本地世界模型，通过潜在消息传递同步。这比共享想象更现实，但仍假设了某种形式的显式通信通道，且未能真正建模 partner 的内部策略。

第三类：全局感知（GAWM）。试图用单一的全局潜在表示捕获所有智能体的集体状态。这种方法实际上回避了部分可观察性的挑战——它将所有信息汇聚到一个中央表示中，而非让每个智能体独立推断 partner 的状态。

Leroy-Stone 指出，这三类方法的共同盲区在于：它们没有将队友建模为独立的、可学习的潜在过程。队友被当作环境的一部分（全局感知）、通信的终点（去中心化通信）或共享表示的参与者（共享想象），却从未被当作一个需要被理解的社会实体。

这种盲区的认知根源可以追溯到行为主义的传统。在行为主义视角下，智能体只需要关注"刺激-反应"映射——观察到什么，就做出什么反应。partner 的行为只是另一种刺激，不需要被分解为内部的信念、欲望或意图。但人类社会协作的成功，恰恰建立在超越行为主义的认知革命之上——我们之所以能高效协作，不是因为我们会计算刺激-反应的最优映射，而是因为我们能将心比心，从对方的行为中推断出其内在的心理状态。

ToMnet（Rabinowitz et al., 2018）是 agent 建模领域的重要先驱，它首次提出了从轨迹中学习预测其他智能体未来行动的想法。但 ToMnet 主要关注对手建模（opponent modeling）——预测他人在竞争性游戏中的策略。"Dreaming of Others"将这一思路扩展到了协作情境，并深度融合进了世界模型的架构中。在协作中，推断 partner 的意图不仅是为了预测其行为，更是为了调整自身行为以实现互补——这是一种双向的适应，而非单向的预测。

---

🧩 3. 分解隐状态：环境动力学与队友动力学

"Dreaming of Others"的核心架构创新是对 RSSM 隐状态的因子化分解。传统 RSSM 的隐状态 z 是一个统一向量，同时编码环境信息和队友信息。Leroy-Stone 将其拆分为两个正交组件：

z_env（环境潜变量）：捕获物理世界的动态——物体运动、任务状态、物理约束。这部分与单智能体世界模型中的潜变量功能相同。

z_team（队友潜变量）：编码推断的队友行为特征——性格（character）、意图（intent）、预测动作（predicted actions）。这部分是全新的，也是整个框架的灵魂。

这种分解的深层动机在于降低非平稳性。在传统的 MARL 中，当队友改变策略时，整个环境对观察者来说变得"非平稳"——因为 teammate 的行为是环境动态的一部分。通过将 teammate 从环境动态中分离出来，智能体可以明确区分"世界本身没有变，变的是与我互动的人"。这种区分使世界模型更加稳定：z_env 可以在 teammate 变化时保持相对恒定，而 z_team 则专门捕获 teammate 带来的变化。

非平稳性问题的严重性常被低估。在标准 MARL 中，每个智能体的策略更新都会改变其他智能体观察到的"有效环境"，导致联合训练的动态极其复杂。Q-learning 等基于值函数的方法在非平稳环境中表现糟糕，因为值函数的更新假设环境动态是固定的。即使在使用策略梯度的方法中，partner 策略的变化也会导致梯度估计的方差增大，学习效率下降。通过将 teammate 行为建模为可学习的潜在过程，"Dreaming of Others"实际上将 MARL 的部分非平稳性转化为可预测的变化——z_team 的变化虽然仍然存在，但它被限制在一个专门的潜在空间中，而不是污染整个环境动态模型。

更深层的哲学含义是：这种分解承认了他人的本体论独立性。partner 不是环境的属性，也不是我自身的延伸，而是一个独立的、具有自主性的存在。将 z_team 与 z_env 分离，是在架构层面承认"他人即他人"——这一承认不仅是技术选择，也是对协作伦理的深层尊重。

架构上，编码器在每一步接收观察 x 和自身动作 a，产生确定性隐藏状态 h。从这个状态出发，模型维护两个并行的随机潜变量：z_env 和 z_team。两个解码器分别运作：

观察解码器：从 z_env 重建观察 x̂，确保环境动态被准确捕获。
队友策略解码器：从 z_team 预测队友的下一个动作 π̂ʲ(·)，实现心智理论的核心功能。

在 Actor-Critic 学习阶段，隐藏状态 h 和队友潜变量 z_team 共同条件化策略和价值头。这意味着智能体在"想象"未来轨迹时，不仅想象环境如何演变，还想象队友可能如何行动。这种社会化的想象力是零样本协调的基础——智能体可以在脑中"预演"与不同风格队友的互动，而无需实际与他们合作过。

---

🎯 4. 心智理论头：从行为碎片重建伙伴的心灵

ToM head 是框架中最精妙的组件。它的目标是从部分可观察的轨迹中，推断出队友的潜在行为嵌入。具体来说，ToM head 最小化一个校准交叉熵损失，加上时间正则化项：

动作预测项：-∑ πʲ(a) log π̂ʲ(a)。这里 πʲ 是队友动作的经验分布（或平滑标签），π̂ʲ 是模型从 z_team 预测的分布。这项损失迫使模型从队友的历史行为中学习预测其未来行为。

时间一致性正则化：KL(q(z_team | h) || p(z_team | h_{t-1}, a_{t-1}))。这项 KL 散度确保队友潜变量在时间上的平滑演变。 teammate 的性格和意图不会每一步都剧烈变化，正则化项惩罚 z_team 的突变，鼓励模型学习到稳定的 partner 表征。

这个损失函数的设计体现了对心智理论的深刻理解。人类在推断他人意图时，同样遵循两个原则：预测准确性（对方的行为是否符合我的预期？）和时间一致性（对方的性格是否保持稳定？）。一个今天友好、明天敌对、后天又友好的 partner，会让人感到困惑和不可预测；ToM 正则化项正是要防止模型产生这种不稳定的推断。

校准交叉熵中的"校准"一词尤其值得玩味。在预测科学中，校准意味着模型的置信度与其准确率匹配——当模型以 80% 的置信度预测 partner 会向左走时，partner 实际上向左走的频率应该接近 80%。一个校准良好的 ToM 模型不会过度自信（"我确定 partner 会这样做"，结果错了），也不会过度保守（"partner 可能做任何事"，结果毫无信息量）。这种校准对于协作决策至关重要：如果模型错误地高估了自己对 partner 的理解，它可能会做出过于激进的协调尝试；如果低估，则可能过于保守而错失协作机会。

KL 正则化项的另一个功能是与 Dreamer 的标准训练目标无缝集成。标准的 Dreamer 训练已经包含了对 z 的时间一致性正则（通过 RSSM 的转移模型），ToM 损失只需额外添加对 z_team 的 KL 项，无需修改整个训练框架。这种设计体现了模块化的优雅：心智理论能力被作为一个插件添加到现有世界模型中，而非要求对基础架构进行彻底重构。

z_team 应该编码什么？ 论文提出了三个层次：

性格（Character）：队友的长期行为模式——它是激进的还是保守的？偏好独立行动还是频繁协作？学习能力快还是慢？这些特征在长时间交互中相对稳定。

意图（Intent）：队友在当前情境中的短期目标——它此刻是在探索环境还是执行特定任务？它的注意力集中在哪个子目标上？意图可能随情境变化，但在短时间窗口内相对稳定。

预测动作（Predicted Actions）： teammate 在下一步最可能采取的具体行动。这是最细粒度的预测，直接服务于协调决策——如果我知道 partner 下一步要向左走，我就可以提前让出通道。

这三个层次构成了一个从粗到细的心智理论层级，使智能体能够在不同时间尺度和决策粒度上适应 partner 的行为。

---

🌌 5. 想象的社会化：零样本协调从何而来

传统 MARL 的协调依赖于大量与特定 partner 的交互经验。如果一个智能体要与一百个不同的队友合作，它可能需要与每个队友都进行数百次交互才能学会有效协调。这种学习方式在面对人类伙伴时完全不可行——人类没有耐心与一个 AI 进行数千次试错才能建立基本协作。

"Dreaming of Others"提出的解决方案是通过想象实现零样本协调。在测试时，模型从观察到的 teammate 行为中在线推断 z_team，然后条件化 actor 和 critic 于这个嵌入。关键在于想象阶段的采样：模型不是用固定的 z_team 进行想象 rollout，而是采样可能的 teammate 轨迹。这意味着智能体在脑中"预演"了多种 partner 行为的可能性——如果 partner 是激进的怎么办？如果它是保守的怎么办？如果它误解了我的意图怎么办？

这种"社会化的想象力"使智能体能够为与从未见过的 partner 进行协调做好准备。它不需要与每个可能的队友都进行真实交互，只需要在潜在空间中"梦见"各种类型的队友，并学习如何在每种情况下调整自己的行为。这与人类的社会适应能力遥相呼应——我们能够在第一次与陌生人合作时就做出合理的协调尝试，因为我们的大脑中存储了丰富的人类行为原型。

想象一个具体的场景。在 Overcooked-AI 的厨房中，智能体需要与一个人类玩家合作制作汤。人类玩家可能是"效率型"（优先完成订单，不在乎食材浪费）或"完美型"（坚持按正确顺序操作，宁可慢也不出错）。在传统的 MARL 中，智能体只能通过与该特定人类的大量交互才能识别其风格。而在 teammate-conditioned world model 中，智能体在训练阶段就已经"梦见"了这两种类型的 partner——它的想象 rollouts 中包含了与效率型 partner 的互动（"如果我递上切好的洋葱，它会立刻下锅，但可能会忘记拿盘子"），以及与完美型 partner 的互动（"它会坚持等所有食材准备好才开始烹饪，我需要提前把一切都安排好"）。当面对一个从未见过的人类时，智能体首先通过 ToM head 快速推断该人类的 z_team（"它看起来像是效率型"），然后激活对应的想象经验，做出预先调整过的协调行为。

这种能力的本质是元学习的社会版本。传统的元学习让模型学会"如何快速学习新任务"；社会化想象力让模型学会"如何快速适应新 partner"。两者共享同一个核心机制——从有限观察中快速推断潜在结构——但应用的对象从任务空间转移到了社会空间。

少样本改进是零样本协调的自然延伸。即使初始协调不完美，智能体在观察到更多 partner 行为后，可以迅速更新 z_team 的推断。随着观察数据的积累，模型对 partner 性格和意图的估计越来越准确，协调质量也随之提升。这种"先尝试、再学习"的模式，比传统 MARL 的"先学习、再尝试"更加符合人类协作的实际节奏。

---

🔬 6. 评估协议的野心：从粒子环境到人类厨房

论文提出的评估协议横跨三个层次，从简化的诊断环境到复杂的人类-AI 协作场景。

第一层：Multi-Agent Particle Environments。这些轻量级、可控的场景用于诊断模型是否真正学习到了可识别的 teammate 潜变量，以及是否能够将社会动态与物理动态分离。例如，在一个追逐任务中，模型需要区分"partner 向左走是因为物理规律（惯性）"和"partner 向左走是因为它想拦截目标"。

第二层：Overcooked-AI。这是人类-AI 协调研究的标准测试平台，模拟餐厅厨房中的协作烹饪。任务的复杂性在于：两个玩家需要分工（谁切菜、谁煮面、谁装盘），而高效的分工需要实时推断对方的计划和优先级。论文计划使用标准的 partner 分割来评估零样本协调——模型在训练时与一类 partner 合作，测试时与完全不同的 partner 合作，测量初始协调质量。

第三层：Melting Pot。这是 DeepMind 开发的大规模社会智能评估平台，包含多样的社会情境和 partner 群体。它测试模型在分布外社会规范下的鲁棒性——例如，在一个文化中"轮流行动"是默认规范，在另一个文化中"先到先得"才是规则。模型能否快速识别并适应这些变化的社会约定？

评估指标包括： episodic return（任务完成效率）、sample efficiency（学习速度）、zero-shot coordination score（与未见 partner 的初始协调质量）、few-shot improvement（少量交互后的质量提升）、以及 cross-play robustness（跨 partner 配对的稳定性）。

这个评估协议的层次设计本身就有深刻的用意。从粒子环境到 Overcooked 再到 Melting Pot，任务复杂度和社会不确定性逐级递增。粒子环境中的 partner 通常是简单的策略（如随机游走或固定规则），其可预测性较高；Overcooked 中的人类玩家虽然更复杂，但仍在一个结构化的任务框架内行动；Melting Pot 则引入了真正的社会规范多样性——不同"文化"中的 partner 可能遵循完全不同的协作逻辑。如果模型能在所有三个层次上都表现良好，就证明它的心智理论能力具有跨情境的泛化性，而非仅仅适配特定类型的 partner。

特别值得关注的是 zero-shot coordination score 的设计。传统 MARL 评估通常关注最终性能——经过充分训练后，智能体与给定 partner 的协调有多好。但 zero-shot score 测量的是第一次交互的质量——在没有任何与该 partner 交互经验的情况下，智能体能否做出合理的协调尝试？这个指标更贴近人类协作的现实：我们不会要求一个新同事与我们练习一千次才开始合作，我们期待的是第一次就能基本配合。zero-shot 能力是 teammate-conditioned world model 的核心卖点，也是其区别于传统 MARL 的关键特征。

---

⚠️ 7. 概念的价值与未竟的实证

需要坦诚指出的是，这是一篇概念性论文，作者明确说明不报告实证结果。这意味着上述所有架构设计、损失函数和评估协议，目前仍处于理论提案阶段，尚未经过大规模实验验证。这种诚实性本身就是科学严谨的体现——在投入大量计算资源之前，先通过概念论证和架构设计引发社区讨论，是一种高效的科研策略。

但从另一个角度看，这也提醒我们概念与实际之间的距离。因子化隐状态听起来优雅，但 z_env 和 z_team 的分离在实践中可能并不干净—— teammate 的行为往往与物理环境紧密耦合（例如，partner 推一个箱子，这个动作同时改变了环境状态和 teammate 的意图）。ToM head 的预测准确性取决于 teammate 行为的可预测性，而人类行为有时就是 fundamentally 不可预测的（我们自己也常常做出让自己惊讶的决定）。

更深层的挑战在于人类伙伴的异质性。人类不是从某个固定分布中采样的智能体——每个个体都有独特的认知风格、情绪状态和文化背景。一个在世界模型中"梦见"了一百种人类原型的 AI，可能仍然无法应对第一百零一种人类。心智理论的极限，或许不在模型的表达能力，而在人类行为本身的不可穷尽性。

这种不可穷尽性提出了一个深刻的认识论问题：是否存在一个"完整"的心智理论？如果我们承认每个人类都是独一无二的，那么任何有限的原型集合都必然是不完整的。但这并不意味着心智理论是无用的——恰恰相反，它意味着心智理论的价值不在于穷尽所有可能性，而在于快速定位可能性空间中的大致区域。即使智能体无法精确预测一个陌生人类的每一个动作，只要它能快速识别"这个人大致是效率型还是完美型"，就足以做出比随机好得多的协调尝试。

另一个被论文提及但未深入探讨的问题是伦理维度。当 AI 系统学会了推断人类的意图和性格，这种能力既可能是协作的福音，也可能是操纵的工具。一个能够准确预测人类行为的 AI，可以被用来设计更有效的说服策略、更隐蔽的操控手段，或者更精准的欺骗方案。"Dreaming of Others"的框架本身是中性的——它的社会价值取决于使用者的意图。这提示了在开发 teammate-conditioned world model 时，必须同时建立伦理约束机制：例如，限制模型对 partner 意图的利用范围，确保推断结果被用于促进协作而非操纵对方。

---

🎯 8. 结语：梦见世界，更要梦见世界中的人

"Dreaming of Others"的标题本身就是一个诗意的隐喻。它提醒我们：一个真正理解世界的智能体，不仅要梦见物理定律和环境动态，还要梦见与之一同栖居的心灵。世界模型若只包含物体和力，就只是一个物理模拟器；只有当它纳入了他人的信念、意图和策略，才成为一个社会模拟器。

这个框架的深远意义在于它重新定义了世界模型的边界。从 Hafner 的 Dreamer 到 Leroy-Stone 的 teammate-conditioned world model，我们见证了世界模型从一个"环境预测器"向"社会理解器"的演化。这种演化对于人类兼容的 AI 至关重要——一个不能理解人类意图的 AI，无论其物理推理多么精确，都无法成为真正有效的协作者。

论文的最后一句尤其动人："Ultimately, teammate-conditioned world models may help agents not only dream of the worlds they inhabit, but also of the minds that share them." 当 AI 学会梦见队友时，它迈出的不仅是一个技术步骤，更是一个认知跃迁——从孤立的智能体，走向社会的成员。

这个跃迁能否成功，取决于未来的实证研究能否验证概念的美好愿景。但无论结果如何，提出问题本身就已经改变了我们对多智能体协作的认知图景。毕竟，在科学中，提出正确的问题往往比找到答案更重要。

---

📚 参考文献

1. Leroy-Stone, T. (2026). *Dreaming of Others: Latent Teammate Modeling in World Models for Multi-Agent Reinforcement Learning*. arXiv:2605.31361 [cs.MA].

2. Hafner, D., Pasukonis, J., Ba, J., & Lillicrap, T. (2025). *Mastering Diverse Control Tasks through World Models*. Nature.

3. Carroll, R., Shah, M., Ho, M. K., et al. (2019). *On the Utility of Learning about Humans for Human-AI Coordination*. NeurIPS 2019.

4. Rabinowitz, N., Perbet, F., Song, F., et al. (2018). *Machine Theory of Mind*. ICML 2018.

5. Liang, D., Chen, D., Gupta, A., et al. (2024). *Learning to Cooperate with Humans Using Generative Agents*. NeurIPS 2024.

---

#CrushAI #FeynmanLearning #智柴系统实验室🎙️