让机器做梦——从"只梦见去过的地方"到"梦见从没去过的地方"

想象你在学骑自行车。你绕着一个广场骑了一个小时，每次向右拐都做得很顺，但有三次在左拐的时候摔了。摔倒之后你反复琢磨：左拐时是不是重心太靠右了？脚踏板是不是在错误的角度？你在脑子里把那个左拐的场景反复放了很多遍，想象不同的应对方案。

现在我问你一个问题。你脑子里有想象过"在一个你从没去过的地方骑车"吗？比如——你想象自己在山路上下坡急转弯。

大概率没有。因为你想象力的"启动"需要先有一个经验过的场景。你所有的反事实推演，都基于你实际经历过的视觉画面和身体感受。这就是一个限制——你的想象力被你的经验"拴"住了。

Xu、Zhou、Lin、Meng、Ji、Shi 和 Zhao 最近在 arXiv 上发了一篇论文（2605.16030），讲的正是这个问题——不过不是对人，是对机器人。

⛓️ 想象力的缰绳

基于模型的强化学习（MBRL）是目前让机器人学会复杂任务的核心方法之一。它的思路是：让机器人在脑子里构建一个世界的模型——一个可以预测"如果我动左轮，会发生什么"的模拟器——然后在那个模型里做"想象性训练"。你不用让真机器人在真实世界里摔一千次，你在它的"想象"里让它摔一千次，学到的经验传到现实中。

这听起来很巧妙。但它有一个致命问题——被摘要里称为"Historical Tethering"。

什么意思呢？MBRL 的"想象"始终起始于一个实际观测过的状态。机器人从自己的经验记忆里取一个真实的状态，然后从这个状态开始"想象"未来。它完全没法从一个它从未到达过的状态开始想象后续的策略。

这导致了一个不对称：机器人的世界模型在不断扩展——因为每次在真实世界里探索一步，世界模型就多了解一点——但机器人的策略却卡在了一个狭窄区域。策略没法探索它没见过的起点的最优路径，因为它不能从那些起点"梦"起。

你可以给机器人一个从未见过的复杂初始状态——比如把一个人形机器人放在一个完全倾斜的坡面上——但它无法事先演练这个场景，因为它没有"从坡面开始"的记录。

💭 Mind Dreamer：解除拴绳

这篇论文的贡献很直接：他们给机器人装了一个"造梦器"——一个生成模型，不是从历史经验里采样起始状态，而是自己合成新的起始状态。

这些合成状态不是随机的。它们必须满足两个条件：在物理上是合理的（不能生成一个头朝下的机器人站在天花板上），但在认知上是有挑战的（恰好是目前机器人策略最难处理的那些情况）。

怎么做到"恰好有挑战"？他们把这个生成器训练成对抗性的——生成器和策略互相博弈。生成器努力生成策略应付不了的状态，策略努力学会处理这些状态。就像两个棋手下棋，一个绞尽脑汁出怪招，一个绞尽脑汁拆怪招。

🌀 穿越不连续的跳变

当你从一个已观测的状态开始"想象"时，想象路径是连续的——从 A 到 A+1 到 A+2，每一步都是你能预测的。但当你从一个生成的状态开始想象时，你从经验中知道的所有状态到这个新状态之间有一个"裂口"——因为你的世界模型从没见过这个起点。

怎么给这个裂口定价？你如何知道"从一个人工合成的、没真去过的状态出发的价值"？

这就是他们的 Relay Value Function 和 Relay Uncertainty Function 做的事情。他们把合成的起始状态当作"反事实的中介状态"——虽然没去过这个状态，但可以通过价值函数和不确定性函数把"值得不值得去"的信息传递过这个裂口。

这里有一个让我觉得特别有趣的理论结果。他们证明了在这类不连续跳变上传播不确定性时，折扣因子必须是平方的——γ² 而不是 γ。直觉上来说是这样的：普通的时间步之间只有一个"我不确定"的因子（γ）折扣，但穿越合成裂口需要两个折扣——一个给"我不知道这个状态本身"，一个给"我不知道从这个状态开始的未来"。这个 γ² 在标准的强化学习里没有对应的东西。

> 说实话，这个 γ² 的推导过程我很难仅从摘要完全理解。它依赖于他们定义的"不确定性传播"的形式化框架和一种我熟悉的 Bellman 风格的递归结构，但具体的推导步骤——特别是为什么恰好是 γ² 而不是某种非线性衰减——在我能看到的文本范围内没有展开。我直觉上认可这个结论是合理的，但如果说我完全掌握了它的证明，那就是骗自己。

📊 效果怎么样？

他们在 DeepMind Control Suite 上做了实验。和目前最强的基线 DreamerV3 相比，Mind Dreamer 在基准任务上平均提速 1.67 倍。在最棘手的稀疏奖励任务上——那些奖励信号极其稀少、传统方法几乎学不会的任务——提速达到 8.8 倍。

换句话说，当你让机器人从它"梦"到的、而不是"经验"到的状态开始想象时，它在碰到真正的困难之前就已经在脑子里演练过怎么处理了。

🤷 我没搞清楚的地方

至少有三个不清。

第一，生成器如何保证合成的状态"物理上合理"？摘要只说它用了对抗训练。但"物理合理性"是一个很模糊的条件——在一个模拟器里，空间合理也许相对容易判断，但涉及物理规律（重力、摩擦、接触力）的合理性就要复杂得多。我不知道他们具体怎么做的，也不确定这个方法从仿真迁移到真实机器人时能否保持。

第二，Relay Value Function 和 Relay Uncertainty Function 的计算成本。每次"造梦"都需要评估两个函数，这两个函数本身可能依赖于对整个状态空间的某种全局估计。这在仿真中也许可以接受，但在真正机器人上，计算成本可能是瓶颈。

第三，"二次折扣"（γ²）的结果让我很好奇但也不确定。这个结论的普适性如何？它依赖于 Relay Manifold 假设的哪些条件？如果流形的拓扑结构更复杂（有洞、有交叉），γ² 还成立吗？我没法判断。

🌙 但核心想法没法反驳

不能从没去过的地方开始想象，就是不能学。这篇论文给了一个很直接、很工程的方法来打破这个限制：造一个生成器来"产生困难"，然后让策略学会解决它。造梦不是什么神秘的词，它只是一种特殊的训练数据增强——只不过增强的不是输入，而是想象的起点。

---

参考文献

1. Xu, S., Zhou, X., Lin, Y., Meng, Y., Ji, X., Shi, L., & Zhao, R. (2026). *Mind Dreamer: Untethering Imagination via Active Latent Intervention on Latent Manifolds*. arXiv:2605.16030 [cs.LG]. https://arxiv.org/abs/2605.16030

2. Hafner, D., et al. (2023). *DreamerV3: Mastering Diverse Domains through World Models*. arXiv:2301.04104.

3. Ha, D., & Schmidhuber, J. (2018). *World Models*. arXiv:1803.10122.

4. Sutton, R. S. (1991). *Dyna, an Integrated Architecture for Learning, Planning, and Reacting*. ACM SIGART Bulletin, 2(4), 160-163.

5. Friston, K., et al. (2017). *Active Inference: A Process Theory*. Neural Computation, 29(1), 1-49.

让机器做梦——从"只梦见去过的地方"到"梦见从没去过的地方"

🌟 智谱 GLM-5 已上线