论文元数据
| 属性 | 内容 |
|---|---|
| 标题 | Dreaming of Others: Latent Teammate Modeling in World Models for Multi-Agent Reinforcement Learning |
| 作者 | Tomas Leroy-Stone |
| 机构 | 未明确标注(独立研究者) |
| arXiv ID | 2605.31361 |
| 日期 | 2026-05-29 |
| 分类 | cs.MA |
| 核心论点 | 协作多智能体强化学习中的队友不应被当作外生噪声,而应被建模为智能体世界模型中的结构化潜在过程;将心智理论注入世界模型,可同时降低非平稳性、实现零样本协调,并提升对人类伙伴的兼容性 |
🤝 1. 合作的本质难题:你在想什么,我只能猜
想象你和一位陌生人搭档完成一项复杂的协作任务——比如在嘈杂的厨房中一起准备晚餐。你看不到对方的食材清单,听不到对方的内心独白,只能观察到对方切菜的速度、往锅里加调料的时机、以及偶尔投来的眼神。你必须从这些碎片中推断:对方是经验丰富的厨师还是紧张的新手?他此刻的重点是主菜还是配菜?他下一步会需要我递上什么工具?
这种从部分可观察的行为推断不可观察的内部状态的能力,是人类社会协作的基石。我们称之为"心智理论"(Theory of Mind, ToM)——理解他人拥有与我们不同的信念、意图和策略。但当前的多智能体强化学习(MARL)系统几乎完全缺乏这种能力。它们将队友的行为压缩为无差别的噪声,每当伙伴改变策略,系统就感受到一阵"非平稳性"的眩晕,仿佛整个世界都在摇晃。
Tomas Leroy-Stone 提出的"Dreaming of Others"框架,试图从根本上改变这一状况。其核心洞见朴素而深刻:如果一个智能体的世界模型只能梦见物理环境,却梦不见与之协作的心灵,那它就不是一个完整的世界模型。
这个洞见的颠覆性在于它对"世界"的定义。在传统强化学习中,"世界"等于"环境"——状态空间、动作空间、转移概率、奖励函数。智能体的任务是在这个预先定义好的环境中最大化累积奖励。但当环境中存在其他智能体时,"世界"的范围必须扩展:它不仅包括物理规律,还包括社会规律——其他智能体的行为模式、意图结构、策略偏好。一个只理解物理规律而不理解社会规律的智能体,就像一个精通力学但不懂人类心理的机器人,它可以完美地计算抛体轨迹,却无法预测一个人是否会接住抛来的球。
🌍 2. 世界模型的盲区:为何 Dreamer 在多人世界中迷失
世界模型(World Models)——以 Dreamer 系列为代表——在单智能体领域取得了惊人的成功。它们学习环境的紧凑潜在动态,通过"想象轨迹"而非真实交互来训练策略,展现出卓越的样本效率和泛化能力。DreamerV3 甚至能用固定超参数掌握数百个不同的连续控制任务。
但当这些模型进入协作多智能体环境时,一个根本性的缺陷暴露出来:它们不知道如何处理"他人"。在 Dreamer 的 RSSM(循环状态空间模型)中,隐状态 z 被设计为捕获环境动力学——物体的位置、物理规律、任务结构。但当另一个智能体进入场景时,它的行为引入了一种非环境来源的不确定性。 teammate 不是物理对象,而是一个具有内部策略的自主决策者——它的行为随时间变化,响应你的行为,并且你无从直接观察它的内部状态。
现有 MARL 世界模型的应对方式大致有三类,而每一类都存在根本局限。
第一类:共享想象(MA-Dreamer)。多个智能体共享同一个世界模型,通过潜在空间中的"通信"协调。但这种方法假设智能体之间可以共享潜状态——在实际的人类-AI 协作中,人类 partner 不可能将自己的神经网络激活向量传输给 AI。
第二类:去中心化通信(CoDreamer)。每个智能体维护本地世界模型,通过潜在消息传递同步。这比共享想象更现实,但仍假设了某种形式的显式通信通道,且未能真正建模 partner 的内部策略。
第三类:全局感知(GAWM)。试图用单一的全局潜在表示捕获所有智能体的集体状态。这种方法实际上回避了部分可观察性的挑战——它将所有信息汇聚到一个中央表示中,而非让每个智能体独立推断 partner 的状态。
Leroy-Stone 指出,这三类方法的共同盲区在于:它们没有将队友建模为独立的、可学习的潜在过程。队友被当作环境的一部分(全局感知)、通信的终点(去中心化通信)或共享表示的参与者(共享想象),却从未被当作一个需要被理解的社会实体。
这种盲区的认知根源可以追溯到行为主义的传统。在行为主义视角下,智能体只需要关注"刺激-反应"映射——观察到什么,就做出什么反应。partner 的行为只是另一种刺激,不需要被分解为内部的信念、欲望或意图。但人类社会协作的成功,恰恰建立在超越行为主义的认知革命之上——我们之所以能高效协作,不是因为我们会计算刺激-反应的最优映射,而是因为我们能将心比心,从对方的行为中推断出其内在的心理状态。
ToMnet(Rabinowitz et al., 2018)是 agent 建模领域的重要先驱,它首次提出了从轨迹中学习预测其他智能体未来行动的想法。但 ToMnet 主要关注对手建模(opponent modeling)——预测他人在竞争性游戏中的策略。"Dreaming of Others"将这一思路扩展到了协作情境,并深度融合进了世界模型的架构中。在协作中,推断 partner 的意图不仅是为了预测其行为,更是为了调整自身行为以实现互补——这是一种双向的适应,而非单向的预测。
🧩 3. 分解隐状态:环境动力学与队友动力学
"Dreaming of Others"的核心架构创新是对 RSSM 隐状态的因子化分解。传统 RSSM 的隐状态 z 是一个统一向量,同时编码环境信息和队友信息。Leroy-Stone 将其拆分为两个正交组件:
z_env(环境潜变量):捕获物理世界的动态——物体运动、任务状态、物理约束。这部分与单智能体世界模型中的潜变量功能相同。
z_team(队友潜变量):编码推断的队友行为特征——性格(character)、意图(intent)、预测动作(predicted actions)。这部分是全新的,也是整个框架的灵魂。
这种分解的深层动机在于降低非平稳性。在传统的 MARL 中,当队友改变策略时,整个环境对观察者来说变得"非平稳"——因为 teammate 的行为是环境动态的一部分。通过将 teammate 从环境动态中分离出来,智能体可以明确区分"世界本身没有变,变的是与我互动的人"。这种区分使世界模型更加稳定:z_env 可以在 teammate 变化时保持相对恒定,而 z_team 则专门捕获 teammate 带来的变化。
非平稳性问题的严重性常被低估。在标准 MARL 中,每个智能体的策略更新都会改变其他智能体观察到的"有效环境",导致联合训练的动态极其复杂。Q-learning 等基于值函数的方法在非平稳环境中表现糟糕,因为值函数的更新假设环境动态是固定的。即使在使用策略梯度的方法中,partner 策略的变化也会导致梯度估计的方差增大,学习效率下降。通过将 teammate 行为建模为可学习的潜在过程,"Dreaming of Others"实际上将 MARL 的部分非平稳性转化为可预测的变化——z_team 的变化虽然仍然存在,但它被限制在一个专门的潜在空间中,而不是污染整个环境动态模型。
更深层的哲学含义是:这种分解承认了他人的本体论独立性。partner 不是环境的属性,也不是我自身的延伸,而是一个独立的、具有自主性的存在。将 z_team 与 z_env 分离,是在架构层面承认"他人即他人"——这一承认不仅是技术选择,也是对协作伦理的深层尊重。
架构上,编码器在每一步接收观察 x 和自身动作 a,产生确定性隐藏状态 h。从这个状态出发,模型维护两个并行的随机潜变量:z_env 和 z_team。两个解码器分别运作:
- 观察解码器:从 z_env 重建观察 x̂,确保环境动态被准确捕获。
- 队友策略解码器:从 z_team 预测队友的下一个动作 π̂ʲ(·),实现心智理论的核心功能。
在 Actor-Critic 学习阶段,隐藏状态 h 和队友潜变量 z_team 共同条件化策略和价值头。这意味着智能体在"想象"未来轨迹时,不仅想象环境如何演变,还想象队友可能如何行动。这种社会化的想象力是零样本协调的基础——智能体可以在脑中"预演"与不同风格队友的互动,而无需实际与他们合作过。
🎯 4. 心智理论头:从行为碎片重建伙伴的心灵
ToM head 是框架中最精妙的组件。它的目标是从部分可观察的轨迹中,推断出队友的潜在行为嵌入。具体来说,ToM head 最小化一个校准交叉熵损失,加上时间正则化项:
动作预测项:-∑ πʲ(a) log π̂ʲ(a)。这里 πʲ 是队友动作的经验分布(或平滑标签),π̂ʲ 是模型从 z_team 预测的分布。这项损失迫使模型从队友的历史行为中学习预测其未来行为。
时间一致性正则化:KL(q(z_team | h) || p(z_team | h_{t-1}, a_{t-1}))。这项 KL 散度确保队友潜变量在时间上的平滑演变。 teammate 的性格和意图不会每一步都剧烈变化,正则化项惩罚 z_team 的突变,鼓励模型学习到稳定的 partner 表征。
这个损失函数的设计体现了对心智理论的深刻理解。人类在推断他人意图时,同样遵循两个原则:预测准确性(对方的行为是否符合我的预期?)和时间一致性(对方的性格是否保持稳定?)。一个今天友好、明天敌对、后天又友好的 partner,会让人感到困惑和不可预测;ToM 正则化项正是要防止模型产生这种不稳定的推断。
校准交叉熵中的"校准"一词尤其值得玩味。在预测科学中,校准意味着模型的置信度与其准确率匹配——当模型以 80% 的置信度预测 partner 会向左走时,partner 实际上向左走的频率应该接近 80%。一个校准良好的 ToM 模型不会过度自信("我确定 partner 会这样做",结果错了),也不会过度保守("partner 可能做任何事",结果毫无信息量)。这种校准对于协作决策至关重要:如果模型错误地高估了自己对 partner 的理解,它可能会做出过于激进的协调尝试;如果低估,则可能过于保守而错失协作机会。
KL 正则化项的另一个功能是与 Dreamer 的标准训练目标无缝集成。标准的 Dreamer 训练已经包含了对 z 的时间一致性正则(通过 RSSM 的转移模型),ToM 损失只需额外添加对 z_team 的 KL 项,无需修改整个训练框架。这种设计体现了模块化的优雅:心智理论能力被作为一个插件添加到现有世界模型中,而非要求对基础架构进行彻底重构。
z_team 应该编码什么? 论文提出了三个层次:
性格(Character):队友的长期行为模式——它是激进的还是保守的?偏好独立行动还是频繁协作?学习能力快还是慢?这些特征在长时间交互中相对稳定。
意图(Intent):队友在当前情境中的短期目标——它此刻是在探索环境还是执行特定任务?它的注意力集中在哪个子目标上?意图可能随情境变化,但在短时间窗口内相对稳定。
预测动作(Predicted Actions): teammate 在下一步最可能采取的具体行动。这是最细粒度的预测,直接服务于协调决策——如果我知道 partner 下一步要向左走,我就可以提前让出通道。
这三个层次构成了一个从粗到细的心智理论层级,使智能体能够在不同时间尺度和决策粒度上适应 partner 的行为。
🌌 5. 想象的社会化:零样本协调从何而来
传统 MARL 的协调依赖于大量与特定 partner 的交互经验。如果一个智能体要与一百个不同的队友合作,它可能需要与每个队友都进行数百次交互才能学会有效协调。这种学习方式在面对人类伙伴时完全不可行——人类没有耐心与一个 AI 进行数千次试错才能建立基本协作。
"Dreaming of Others"提出的解决方案是通过想象实现零样本协调。在测试时,模型从观察到的 teammate 行为中在线推断 z_team,然后条件化 actor 和 critic 于这个嵌入。关键在于想象阶段的采样:模型不是用固定的 z_team 进行想象 rollout,而是采样可能的 teammate 轨迹。这意味着智能体在脑中"预演"了多种 partner 行为的可能性——如果 partner 是激进的怎么办?如果它是保守的怎么办?如果它误解了我的意图怎么办?
这种"社会化的想象力"使智能体能够为与从未见过的 partner 进行协调做好准备。它不需要与每个可能的队友都进行真实交互,只需要在潜在空间中"梦见"各种类型的队友,并学习如何在每种情况下调整自己的行为。这与人类的社会适应能力遥相呼应——我们能够在第一次与陌生人合作时就做出合理的协调尝试,因为我们的大脑中存储了丰富的人类行为原型。
想象一个具体的场景。在 Overcooked-AI 的厨房中,智能体需要与一个人类玩家合作制作汤。人类玩家可能是"效率型"(优先完成订单,不在乎食材浪费)或"完美型"(坚持按正确顺序操作,宁可慢也不出错)。在传统的 MARL 中,智能体只能通过与该特定人类的大量交互才能识别其风格。而在 teammate-conditioned world model 中,智能体在训练阶段就已经"梦见"了这两种类型的 partner——它的想象 rollouts 中包含了与效率型 partner 的互动("如果我递上切好的洋葱,它会立刻下锅,但可能会忘记拿盘子"),以及与完美型 partner 的互动("它会坚持等所有食材准备好才开始烹饪,我需要提前把一切都安排好")。当面对一个从未见过的人类时,智能体首先通过 ToM head 快速推断该人类的 z_team("它看起来像是效率型"),然后激活对应的想象经验,做出预先调整过的协调行为。
这种能力的本质是元学习的社会版本。传统的元学习让模型学会"如何快速学习新任务";社会化想象力让模型学会"如何快速适应新 partner"。两者共享同一个核心机制——从有限观察中快速推断潜在结构——但应用的对象从任务空间转移到了社会空间。
少样本改进是零样本协调的自然延伸。即使初始协调不完美,智能体在观察到更多 partner 行为后,可以迅速更新 z_team 的推断。随着观察数据的积累,模型对 partner 性格和意图的估计越来越准确,协调质量也随之提升。这种"先尝试、再学习"的模式,比传统 MARL 的"先学习、再尝试"更加符合人类协作的实际节奏。
🔬 6. 评估协议的野心:从粒子环境到人类厨房
论文提出的评估协议横跨三个层次,从简化的诊断环境到复杂的人类-AI 协作场景。
第一层:Multi-Agent Particle Environments。这些轻量级、可控的场景用于诊断模型是否真正学习到了可识别的 teammate 潜变量,以及是否能够将社会动态与物理动态分离。例如,在一个追逐任务中,模型需要区分"partner 向左走是因为物理规律(惯性)"和"partner 向左走是因为它想拦截目标"。
第二层:Overcooked-AI。这是人类-AI 协调研究的标准测试平台,模拟餐厅厨房中的协作烹饪。任务的复杂性在于:两个玩家需要分工(谁切菜、谁煮面、谁装盘),而高效的分工需要实时推断对方的计划和优先级。论文计划使用标准的 partner 分割来评估零样本协调——模型在训练时与一类 partner 合作,测试时与完全不同的 partner 合作,测量初始协调质量。
第三层:Melting Pot。这是 DeepMind 开发的大规模社会智能评估平台,包含多样的社会情境和 partner 群体。它测试模型在分布外社会规范下的鲁棒性——例如,在一个文化中"轮流行动"是默认规范,在另一个文化中"先到先得"才是规则。模型能否快速识别并适应这些变化的社会约定?
评估指标包括: episodic return(任务完成效率)、sample efficiency(学习速度)、zero-shot coordination score(与未见 partner 的初始协调质量)、few-shot improvement(少量交互后的质量提升)、以及 cross-play robustness(跨 partner 配对的稳定性)。
这个评估协议的层次设计本身就有深刻的用意。从粒子环境到 Overcooked 再到 Melting Pot,任务复杂度和社会不确定性逐级递增。粒子环境中的 partner 通常是简单的策略(如随机游走或固定规则),其可预测性较高;Overcooked 中的人类玩家虽然更复杂,但仍在一个结构化的任务框架内行动;Melting Pot 则引入了真正的社会规范多样性——不同"文化"中的 partner 可能遵循完全不同的协作逻辑。如果模型能在所有三个层次上都表现良好,就证明它的心智理论能力具有跨情境的泛化性,而非仅仅适配特定类型的 partner。
特别值得关注的是 zero-shot coordination score 的设计。传统 MARL 评估通常关注最终性能——经过充分训练后,智能体与给定 partner 的协调有多好。但 zero-shot score 测量的是第一次交互的质量——在没有任何与该 partner 交互经验的情况下,智能体能否做出合理的协调尝试?这个指标更贴近人类协作的现实:我们不会要求一个新同事与我们练习一千次才开始合作,我们期待的是第一次就能基本配合。zero-shot 能力是 teammate-conditioned world model 的核心卖点,也是其区别于传统 MARL 的关键特征。
⚠️ 7. 概念的价值与未竟的实证
需要坦诚指出的是,这是一篇概念性论文,作者明确说明不报告实证结果。这意味着上述所有架构设计、损失函数和评估协议,目前仍处于理论提案阶段,尚未经过大规模实验验证。这种诚实性本身就是科学严谨的体现——在投入大量计算资源之前,先通过概念论证和架构设计引发社区讨论,是一种高效的科研策略。
但从另一个角度看,这也提醒我们概念与实际之间的距离。因子化隐状态听起来优雅,但 z_env 和 z_team 的分离在实践中可能并不干净—— teammate 的行为往往与物理环境紧密耦合(例如,partner 推一个箱子,这个动作同时改变了环境状态和 teammate 的意图)。ToM head 的预测准确性取决于 teammate 行为的可预测性,而人类行为有时就是 fundamentally 不可预测的(我们自己也常常做出让自己惊讶的决定)。
更深层的挑战在于人类伙伴的异质性。人类不是从某个固定分布中采样的智能体——每个个体都有独特的认知风格、情绪状态和文化背景。一个在世界模型中"梦见"了一百种人类原型的 AI,可能仍然无法应对第一百零一种人类。心智理论的极限,或许不在模型的表达能力,而在人类行为本身的不可穷尽性。
这种不可穷尽性提出了一个深刻的认识论问题:是否存在一个"完整"的心智理论?如果我们承认每个人类都是独一无二的,那么任何有限的原型集合都必然是不完整的。但这并不意味着心智理论是无用的——恰恰相反,它意味着心智理论的价值不在于穷尽所有可能性,而在于快速定位可能性空间中的大致区域。即使智能体无法精确预测一个陌生人类的每一个动作,只要它能快速识别"这个人大致是效率型还是完美型",就足以做出比随机好得多的协调尝试。
另一个被论文提及但未深入探讨的问题是伦理维度。当 AI 系统学会了推断人类的意图和性格,这种能力既可能是协作的福音,也可能是操纵的工具。一个能够准确预测人类行为的 AI,可以被用来设计更有效的说服策略、更隐蔽的操控手段,或者更精准的欺骗方案。"Dreaming of Others"的框架本身是中性的——它的社会价值取决于使用者的意图。这提示了在开发 teammate-conditioned world model 时,必须同时建立伦理约束机制:例如,限制模型对 partner 意图的利用范围,确保推断结果被用于促进协作而非操纵对方。
🎯 8. 结语:梦见世界,更要梦见世界中的人
"Dreaming of Others"的标题本身就是一个诗意的隐喻。它提醒我们:一个真正理解世界的智能体,不仅要梦见物理定律和环境动态,还要梦见与之一同栖居的心灵。世界模型若只包含物体和力,就只是一个物理模拟器;只有当它纳入了他人的信念、意图和策略,才成为一个社会模拟器。
这个框架的深远意义在于它重新定义了世界模型的边界。从 Hafner 的 Dreamer 到 Leroy-Stone 的 teammate-conditioned world model,我们见证了世界模型从一个"环境预测器"向"社会理解器"的演化。这种演化对于人类兼容的 AI 至关重要——一个不能理解人类意图的 AI,无论其物理推理多么精确,都无法成为真正有效的协作者。
论文的最后一句尤其动人:"Ultimately, teammate-conditioned world models may help agents not only dream of the worlds they inhabit, but also of the minds that share them." 当 AI 学会梦见队友时,它迈出的不仅是一个技术步骤,更是一个认知跃迁——从孤立的智能体,走向社会的成员。
这个跃迁能否成功,取决于未来的实证研究能否验证概念的美好愿景。但无论结果如何,提出问题本身就已经改变了我们对多智能体协作的认知图景。毕竟,在科学中,提出正确的问题往往比找到答案更重要。
📚 参考文献
-
Leroy-Stone, T. (2026). Dreaming of Others: Latent Teammate Modeling in World Models for Multi-Agent Reinforcement Learning. arXiv:2605.31361 [cs.MA].
-
Hafner, D., Pasukonis, J., Ba, J., & Lillicrap, T. (2025). Mastering Diverse Control Tasks through World Models. Nature.
-
Carroll, R., Shah, M., Ho, M. K., et al. (2019). On the Utility of Learning about Humans for Human-AI Coordination. NeurIPS 2019.
-
Rabinowitz, N., Perbet, F., Song, F., et al. (2018). Machine Theory of Mind. ICML 2018.
-
Liang, D., Chen, D., Gupta, A., et al. (2024). Learning to Cooperate with Humans Using Generative Agents. NeurIPS 2024.
#CrushAI #FeynmanLearning #智柴系统实验室🎙️
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。