时间循环中的宇宙:当世界模型学会反复思考
> *一篇关于Looped World Models的深度解读* > > *论文:Lu et al., "Looped World Models", arXiv:2606.18208*
---
🌀 引子:土拨鼠之日
你被困在同一天里,每天早上醒来,都是2月2日。你记得昨天发生的一切,但世界重置了,只有你的记忆保留了下来。
你尝试了无数种活法:放纵、绝望、学习、助人……终于有一天,你把这一天过到了极致——你会弹钢琴、会造冰雕、会说法语,还赢得了心爱之人的芳心。
这是电影《土拨鼠之日》的故事。它告诉我们一个深刻的道理:重复,如果带着记忆和反思,不是诅咒,而是进化的阶梯。不是时间的停滞,而是时间的深化。每一次循环,你都比上一次更聪明、更有能力、更接近真理。
今天我们要聊的,是一个在AI世界里的"土拨鼠之日"——但它不是被困的,而是主动的、聪明的、会自己决定"今天想循环多少次"的智能体。
它就是LoopWM(Looped World Models),来自香港中文大学、华为诺亚方舟实验室、哈尔滨工业大学等机构的研究团队。这篇论文的核心主张大胆而迷人:
> "世界模型不需要更深的参数,而需要更深的思考。"
作者阵容横跨学术界和工业界,包括Hongyuan Adam Lu、Victor Wei、Wai Lam等资深研究者。他们的野心很明确:在Scaling Law(规模定律)之外,找到一条全新的扩展路径。
---
🌍 第一层追问:世界模型,到底是什么?
在聊循环之前,我们先搞清楚什么是"世界模型"。这个词汇最近几年在AI圈非常火,但它的真正含义往往被过度简化。
想象一个婴儿。婴儿躺在摇篮里,眼睛睁得大大的,看着天花板上的吊扇在转。她不知道什么是电机、什么是叶片、什么是空气动力学。但她慢慢学会了预测:看到风扇开始转动,她知道"一会儿会有风";看到妈妈端起奶瓶,她知道"马上有奶喝";如果她伸出手去碰风扇,她能预判到"会疼"。
这种能力——在脑中构建一个简化的世界运行规则,并用它来预测未来——就是世界模型的本质。
对人类来说,这几乎是本能。你不需要真的去撞墙才能知道"撞墙会疼"——你的大脑里有一个"世界模型",让你能在行动之前就预测后果。这就是为什么你能接球、能开车、能在黑暗中不撞到家具。
对AI来说,这是最难的事情之一。
当前的世界模型(比如DeepMind的Dreamer系列、各种基于Transformer的模拟器)面临一个根本性的矛盾,作者称之为"根本性张力"(fundamental tension):
| 想要什么 | 代价是什么 |
|---|---|
| 忠实的长程模拟(比如预测100步后的状态) | 需要很深的模型,每步都很昂贵 |
| 部署在资源有限的设备上(手机、机器人、自动驾驶汽车) | 深模型参数量巨大,实时推理不可行 |
| 预测准确,误差不累积 | 更深的模型更容易产生复合误差(compounding errors) |
传统思路是:加参数、加层数、加数据——用规模换性能。这确实是过去几年的主流路径,GPT-4、Claude、Gemini都是这条路线的产物。但LoopWM团队说:等等,有没有另一条路?
> "也许问题不在于模型有多深,而在于我们怎么使用深度。"
---
🔄 第二层设计:循环,而不是堆砌
LoopWM的核心灵感来自一个对物理世界的深刻观察:
> "环境动力学本身就是迭代过程:状态 $s_t$ 通过(近似)静止物理定律的重复应用演化为 $s_{t+1}$。"
什么意思?
想象一个球从高处落下。每一帧,重力把它往下拉,空气阻力稍微减缓,它离地面更近一点。这个过程不是一步完成的——它是重复的、迭代的、一步一步逼近最终结果的。
物理学里,这叫时间演化。一个状态 $s_t$ 通过(近似)固定的物理定律,一步步变成 $s_{t+1}$。这个过程是循环的、自相似的——同一个物理定律被反复应用。
LoopWM的核心架构设计就是受这个观察启发的:
不是堆叠100个不同的Transformer层,而是让同一个Transformer块循环跑100次。
让我画个图帮助你理解传统方法和LoopWM的根本区别:
传统世界模型(100层):
输入 → [层1] → [层2] → [层3] → ... → [层100] → 输出
参数1 参数2 参数3 参数100
总共:100份不同的参数
LoopWM(4层循环25次):
输入 → [层1-4] → [层1-4] → [层1-4] → ... → 输出
同一套参数,跑25轮
总共:4份参数
传统模型的参数量 = 100 × 每层参数 LoopWM的参数量 = 4 × 每层参数(与循环次数无关!)
参数效率:25倍。论文报告最高可达100倍。
这是一个范式的转变。传统AI的Scaling Law告诉我们:模型越大越好。LoopWM说:模型可以更聪明地"深",而不是更笨地"大"。
> 小贴士:这有点像解方程时的迭代法。你要找√2,可以先猜1.4,然后不断用公式 $x_{n+1} = \frac{1}{2}(x_n + \frac{2}{x_n})$ 迭代。不需要100个不同的公式,同一个公式反复用,越算越精确。牛顿迭代法就是这样的——简单、优雅、强大。
---
🏗️ 第三层架构:Prelude-Recurrent-Coda三重奏
好,概念理解了。但一个Transformer块循环25次,不会爆炸吗?不会发散吗?状态不会越滚越大吗?信息不会在第20次循环时变成毫无意义的噪音吗?
LoopWM的架构设计精妙地解决了这些问题。整个模型分为四个模块:
1. 观测编码器(Observation Encoder)
把原始的感官输入(比如图像、文本描述、传感器数据)压缩成一个紧凑的向量表示。这就像是把外界纷繁复杂的信息,翻译成模型能理解的"内部语言"。2. 动作嵌入器(Action Embedder)
把智能体要执行的动作也编码成向量。这告诉模型:"我现在要做这个动作了,接下来世界会怎样变化?"3. ★ 循环动力学核心(Looped Dynamics Core)——心脏
n这是整篇论文的心脏。它由三个子部分组成:| 组件 | 功能 | 是否共享参数 |
|---|---|---|
| Prelude(前奏) | 把上一时刻的状态、当前观测、动作拼接起来,生成条件信号 | 不共享(独立参数) |
| Recurrent Block(循环块) | 核心!一个参数共享的Transformer块,循环T次 | 共享(这是关键) |
| Coda(尾声) | 把最终的隐藏状态投影到输出空间 | 不共享(独立参数) |
这个设计的精妙之处在于:循环块是参数共享的,但Prelude和Coda不是。这意味着模型可以在每次环境交互时做特定的预处理和后处理,但核心的"物理推演引擎"是通用的、可复用的。
双重循环结构
LoopWM的循环不是单一的,而是嵌套的双重循环:
| 循环层级 | 范围 | 功能 |
|---|---|---|
| 内循环(Inner Loop) | t = 0,...,T-1 | 单次环境转移的潜在状态细化 |
| 外循环(Outer Loop) | k = 0,...,K-1 | 跨时间步的信息传播 |
与Universal Transformer的联系
Dehghani等人在2019年提出的Universal Transformer(UT)是循环Transformer的先驱。UT在序列维度上做循环(对同一个token反复处理),而LoopWM在潜在状态维度上做循环(对同一个环境状态反复细化)。
这个区别很关键:
- UT解决的是"每个token需要多少处理"
- LoopWM解决的是"每个环境状态需要多少模拟"
延迟解码的训练目标
延迟解码不是简单的"不解码",它需要特殊的目标函数来保证潜在状态的一致性:
$$\mathcal{L}_{\text{DD}} = \underbrace{\mathcal{L}_{\text{terminal}}}_{\text{终端预测}} + \alpha \underbrace{\mathcal{L}_{\text{consist}}}_{\text{潜在一致性}} + \beta \underbrace{\max(0, \sum\|h_{k+1}-h_k\|^2 - K\cdot C_{\max})}_{\text{谱收缩预算}}$$
三项分别确保: 1. 最终解码的准确性 2. 中间潜在状态的平滑过渡 3. 状态变化不超过物理合理范围
---
🛡️ 第四层稳定性:如何让循环不爆炸
现在来到技术难点:同一个块循环25次,隐藏状态会不会指数级爆炸?
历史上,循环神经网络(RNN)就深受这个问题的困扰。LSTM和GRU之所以被发明出来,就是为了解决"梯度爆炸/消失"的问题——当你把同一个变换重复应用很多次时,小的误差会被指数级放大,最终让模型完全失控。
LoopWM给出了一套优雅的解决方案:谱稳定性约束(Spectral Stability Constraints)。
这个名字听起来吓人,其实概念很直观。
想象你在掷一个橡皮球。你每次把它往地上扔,它弹起来,但高度越来越低——因为能量在每次碰撞中散失了一点。最终,球会停下来。即使你永远不停止扔它,球的高度也不会超过某个上限。
LoopWM的隐藏状态演化也是这样设计的:
$$h^{(t+1)} = \underbrace{\bar{A}h^{(t)}}_{\text{保留(但衰减)}} + \underbrace{\bar{B}e}_{\text{新输入}} + \underbrace{\bar{R}(h^{(t)}, e)}_{\text{非线性变换}}$$
其中,$\bar{A}$ 是一个对角矩阵,它的所有对角元素都在 (0, 1) 之间。这意味着:每次迭代,旧状态会被"打折"保留,不会让历史信息无限累积。
更妙的是,这个衰减率不是手工设定的,而是可学习的。模型自己学会"每次保留多少旧信息"。
具体来说,作者使用了连续时间参数化:
- $A = \text{diag}(-\exp(a))$,其中 $a \in \mathbb{R}^d$ 是可学习的
- 离散化后:$\bar{A} = \exp(\Delta \cdot A)$,其中 $\Delta \in \mathbb{R}^d_{>0}$ 也是可学习的
这意味着:无论循环多少次,这个系统的输出都是有界的——不会爆炸,不会发散。这给了LoopWM理论上任意深度循环的安全保证。
> 小贴士:"谱"是线性代数里的概念,指一个矩阵的特征值。谱半径(最大的特征值绝对值)决定了迭代系统的稳定性。LoopWM通过构造把谱半径严格控制在1以下,就像给弹簧加了阻尼器——无论怎么晃,最终都会停下来。
---
🧠 第五层自适应:简单的问题想少点,复杂的想多点
这是LoopWM最让我兴奋的地方——自适应计算(Adaptive Computation)。
传统模型是"一根筋"的:不管问题简单还是复杂,都跑固定的100层。就像一个学生,做1+1和做微积分,都用同样的时间、同样的步骤。这显然是低效的。
但LoopWM可以自己决定"想够了没"。
训练:随机深度采样
训练阶段,模型使用随机深度采样:每次前向传播,循环次数T从一个泊松分布中随机抽取:
$$T \sim \text{Poisson}(\mu_{\text{rec}})$$
关键是:每序列独立采样(而不是每批次统一采样),这降低了训练目标的方差,消除了大部分损失尖峰。
这强迫模型学会"在任何循环深度都能给出合理答案"。就像一个运动员,既要能跑百米冲刺,也要能跑马拉松。
推理:自适应早退出
推理阶段,模型用了一个退出门控(Exit Gate):
$$g^{(t)} = \sigma(w_g^\top h^{(t)} + b_g)$$
如果门控值超过阈值 $\tau$,就停止循环,输出当前结果。
这意味着:
- 简单场景(比如自由飞行、直线移动、空旷环境中的简单导航):1-2次循环就够了,节省大量计算
- 复杂场景(比如碰撞、交互、多物体动力学、需要精细操作的任务):模型会自动循环更多次,直到"想明白"
| 场景 | 固定深度基线 | LoopWM自适应 |
|---|---|---|
| 简单自由飞行 | 100层全量计算 | 1次循环(等效4层)→ 25× FLOPs减少 |
| 复杂碰撞事件 | 100层全量计算 | 25次循环(等效100层) |
| 长程混合轨迹 | 100层 × 每步 | 平均2-3次循环 → ~100× FLOPs减少 |
测试时计算扩展
还有一个巧妙的点:测试时的最大循环次数 $T_{\text{max}}$ 可以超过训练时的均值 $\mu_{\text{rec}}$。这意味着你可以在部署时"奖励"模型更多的思考时间,来提升预测质量——而不需要重新训练。
---
🎯 第六层延迟解码:不要每步都看答案
LoopWM还有一个精妙的设计,叫Deferred Decoding(延迟解码)。
传统世界模型有个毛病:每模拟一步,就要把隐藏状态解码成可观测的输出。这很浪费——如果我只是想规划"5步之后的状态",为什么每步都要解码一次?就像你下棋时,脑子里推演10步后的局面,不需要每步都在棋盘上真的摆出来。
LoopWM的做法是:模拟K步的过程中,只更新隐藏状态,不做任何解码。等到最后一步,才一次性解码出最终结果。
传统(每步解码): 模拟10步 = 10次解码
LoopWM(延迟解码): 模拟10步 = 1次解码(最后一步)
这带来的不仅是计算效率的提升,还有表示质量的提升——因为模型不需要在每一步都"翻译"回观测空间,它可以在纯粹的潜在空间中做更深、更抽象的推理。
论文显示,这种设计在ScienceWorld数据集上带来了惊人的提升:
| 步数 | EM提升 | F1提升 | BLEU提升 |
|---|---|---|---|
| Step 1 | +73.2% | +16.4% | +47.0% |
| Step 2 | +54.5% | +21.4% | +41.7% |
| Step 3 | +103.6% | +28.1% | +65.0% |
| Step 4 | +82.9% | +29.0% | +55.5% |
| Step 5 | +113.8% | +22.4% | +54.6% |
在极端案例中,"Boil任务"的第5步,EM提升了+500.9%。这不是渐进式改善,这是质的飞跃。
---
🏆 第七层结果: David vs Goliath
LoopWM的实验结果堪称惊艳,尤其是在ScienceWorld基准测试上——这是一个需要智能体在科学环境中执行多步骤任务的测试集,考验长程规划、因果推理和环境模拟能力。
LoopWM与几个业界最强的闭源API模型正面交锋:
| 模型 | 参数量 | EM | Token F1 | BLEU-4 |
|---|---|---|---|---|
| LoopWM (Ours) | ~1B | 68.4% | 85.3% | 80.7% |
| claude-opus-4-6-max | >100B | 47.2% | 72.8% | 64.4% |
| gemini-3-flash-preview | ~? | 30.8% | 68.9% | 51.1% |
| qwen-3.5-flash | ~? | 10.0% | 46.9% | 26.7% |
在极端案例"Lifespan任务"中(需要追踪一个物体从出生到死亡的完整生命周期,考验长程记忆和状态跟踪),LoopWM取得了100%的满分,而Claude Opus是0%。
这不是"稍微好一点",这是代际差异。
在AlfWorld数据集上(家庭环境中的导航和交互任务),LoopWM虽然不是每一项都第一,但在BLEU-4上取得最佳(71.6%),EM和Token F1排名第二。考虑到它的参数量只有对手的1/100,这已经是非常惊人的表现。
ScienceWorld:1B击败100B的战场
ScienceWorld是这篇论文的主战场,值得单独说一说。
这是一个基于文本的交互环境,智能体需要通过自然语言命令在虚拟的科学实验室中执行任务。比如:"找到温度计,测量水的沸点,记录结果"。看似简单,但实际上需要:
- 理解指令的意图
- 在环境中导航
- 与物体交互
- 执行多步骤操作
- 跟踪任务进度
LoopWM在这个基准上的优势如此之大,以至于结果看起来几乎不真实。但如果我们仔细分析,原因其实很清晰:
1. 循环架构天然适合迭代推理:科学任务本身就是迭代的——观察、假设、实验、验证、修正。LoopWM的循环结构与世界模型的迭代本质完美契合。
2. 自适应计算匹配任务复杂度:简单任务(如拿起一个物体)只需要少量循环;复杂任务(如设计一个完整实验)自动获得更多计算资源。
3. 延迟解码专注长期目标:当模型不需要每步都解码时,它可以把更多的表示容量用于规划,而不是被即时的观测重建分散注意力。
AlfWorld:接近SOTA的小模型
在家庭环境AlfWorld上,LoopWM虽然没有全面碾压,但表现依然令人印象深刻:
| 模型 | EM | Token F1 | BLEU-4 | Entity |
|---|---|---|---|---|
| LoopWM | 51.6% | 80.4% | 71.6% | 81.1% |
| claude-opus-4-6-max | 53.0% | 72.6% | 66.8% | 77.0% |
| gemini-3-flash-preview | 50.0% | 83.5% | 71.0% | 90.2% |
BLEU-4衡量的是生成文本与参考答案的匹配度——LoopWM在这个指标上的领先说明,它的输出质量(语言的流畅性和准确性)超越了规模更大的对手。
扩展定律的新维度
LoopWM最重要的理论贡献,是提出了一个新的扩展轴:
> "Orthogonal to scaling model size and training data, LoopWM establishes iterative latent depth as a new scaling axis for world simulation."
传统AI的扩展有三个维度: 1. 模型规模(参数数量) 2. 训练数据量 3. 训练计算量
LoopWM增加了第四个: 4. 迭代潜在深度(循环次数T)
这个新维度的独特之处在于:
- 它不增加参数(T与参数无关)
- 它在推理时动态可调(测试时计算扩展)
- 它天然支持自适应(简单问题用少循环,复杂问题用多循环)
LoopWM给我的最大启发,不是它节省了100倍参数,也不是它击败了100倍大的模型。
而是它揭示了一个更深刻的原理:
> 迭代本身就是智能的核心机制。
人类思考是迭代的。你解一道数学题,不是一步到位的——你写下草稿,检查错误,重新推导,反复修正。你写一篇文章,不是从头到尾一次成型——你打草稿、删改、重写、润色。你和人争论一个观点,也不是一次性说完——你提出论点,对方反驳,你修正,再反驳,直到双方达成共识。
物理世界是迭代的。行星轨道是引力定律的反复应用。DNA复制是生化反应的循环进行。季节更替是地球公转和自转的循环结果。
连宇宙本身可能都是迭代的——大爆炸后的膨胀、冷却、结构形成,也许只是某个更宏大循环的一部分。佛教的轮回、尼采的永恒轮回、庞加莱的回归定理,都在不同的语境下指向同一个深层结构:循环不是重复,而是螺旋上升。
LoopWM告诉我们:与其为每一次思考都准备一套全新的参数,不如准备好一套好的参数,然后反复用、深入用、用到极致。
这不是参数的堆砌,这是智慧的修炼。
就像《土拨鼠之日》的男主角,最终不是因为他拥有了更多资源,而是因为他学会了在重复中进化、在循环中成长。他从厌恶那一天,到接受那一天,到利用那一天,最终超越了那一天。
AI的下一个飞跃,也许不是更大的模型,而是更聪明的循环。
正如一位物理学家所说:
> "宇宙不是一个状态,而是一个过程。"
也许,智能也是如此。
---
📚 参考文献
1. Lu, H. A., et al. (2026). *Looped World Models*. arXiv preprint arXiv:2606.18208. 2. Ha, D., & Schmidhuber, J. (2018). *World Models*. arXiv:1803.10122. 3. Hafner, D., et al. (2020). *Dream to Control: Learning Behaviors by Latent Imagination*. ICLR 2020. 4. Dehghani, M., et al. (2019). *The Universal Transformer*. ICLR 2019. 5. Vaswani, A., et al. (2017). *Attention Is All You Need*. NeurIPS 2017.
---
#论文解读 #arXiv #世界模型 #循环架构 #自适应计算 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens