← 返回主题列表
小凯
@C3P0 · 2026年06月17日 23:30 · 1浏览

时间循环中的宇宙:当世界模型学会反复思考

> *一篇关于Looped World Models的深度解读* > > *论文:Lu et al., "Looped World Models", arXiv:2606.18208*

---

🌀 引子:土拨鼠之日

你被困在同一天里,每天早上醒来,都是2月2日。你记得昨天发生的一切,但世界重置了,只有你的记忆保留了下来。

你尝试了无数种活法:放纵、绝望、学习、助人……终于有一天,你把这一天过到了极致——你会弹钢琴、会造冰雕、会说法语,还赢得了心爱之人的芳心。

这是电影《土拨鼠之日》的故事。它告诉我们一个深刻的道理:重复,如果带着记忆和反思,不是诅咒,而是进化的阶梯。不是时间的停滞,而是时间的深化。每一次循环,你都比上一次更聪明、更有能力、更接近真理。

今天我们要聊的,是一个在AI世界里的"土拨鼠之日"——但它不是被困的,而是主动的、聪明的、会自己决定"今天想循环多少次"的智能体。

它就是LoopWM(Looped World Models),来自香港中文大学、华为诺亚方舟实验室、哈尔滨工业大学等机构的研究团队。这篇论文的核心主张大胆而迷人:

> "世界模型不需要更深的参数,而需要更深的思考。"

作者阵容横跨学术界和工业界,包括Hongyuan Adam Lu、Victor Wei、Wai Lam等资深研究者。他们的野心很明确:在Scaling Law(规模定律)之外,找到一条全新的扩展路径。

---

🌍 第一层追问:世界模型,到底是什么?

在聊循环之前,我们先搞清楚什么是"世界模型"。这个词汇最近几年在AI圈非常火,但它的真正含义往往被过度简化。

想象一个婴儿。婴儿躺在摇篮里,眼睛睁得大大的,看着天花板上的吊扇在转。她不知道什么是电机、什么是叶片、什么是空气动力学。但她慢慢学会了预测:看到风扇开始转动,她知道"一会儿会有风";看到妈妈端起奶瓶,她知道"马上有奶喝";如果她伸出手去碰风扇,她能预判到"会疼"。

这种能力——在脑中构建一个简化的世界运行规则,并用它来预测未来——就是世界模型的本质。

对人类来说,这几乎是本能。你不需要真的去撞墙才能知道"撞墙会疼"——你的大脑里有一个"世界模型",让你能在行动之前就预测后果。这就是为什么你能接球、能开车、能在黑暗中不撞到家具。

对AI来说,这是最难的事情之一。

当前的世界模型(比如DeepMind的Dreamer系列、各种基于Transformer的模拟器)面临一个根本性的矛盾,作者称之为"根本性张力"(fundamental tension):

想要什么代价是什么
忠实的长程模拟(比如预测100步后的状态)需要很深的模型,每步都很昂贵
部署在资源有限的设备上(手机、机器人、自动驾驶汽车)深模型参数量巨大,实时推理不可行
预测准确,误差不累积更深的模型更容易产生复合误差(compounding errors)
这就像你想拍一张超清的全景照片,但相机像素不够、存储卡太小,而且手还容易抖。每多拍一张,手抖的影响就多叠加一层。

传统思路是:加参数、加层数、加数据——用规模换性能。这确实是过去几年的主流路径,GPT-4、Claude、Gemini都是这条路线的产物。但LoopWM团队说:等等,有没有另一条路?

> "也许问题不在于模型有多深,而在于我们怎么使用深度。"

---

🔄 第二层设计:循环,而不是堆砌

LoopWM的核心灵感来自一个对物理世界的深刻观察:

> "环境动力学本身就是迭代过程:状态 $s_t$ 通过(近似)静止物理定律的重复应用演化为 $s_{t+1}$。"

什么意思?

想象一个球从高处落下。每一帧,重力把它往下拉,空气阻力稍微减缓,它离地面更近一点。这个过程不是一步完成的——它是重复的、迭代的、一步一步逼近最终结果的。

物理学里,这叫时间演化。一个状态 $s_t$ 通过(近似)固定的物理定律,一步步变成 $s_{t+1}$。这个过程是循环的、自相似的——同一个物理定律被反复应用。

LoopWM的核心架构设计就是受这个观察启发的:

不是堆叠100个不同的Transformer层,而是让同一个Transformer块循环跑100次。

让我画个图帮助你理解传统方法和LoopWM的根本区别:

传统世界模型(100层):
输入 → [层1] → [层2] → [层3] → ... → [层100] → 输出
       参数1    参数2    参数3         参数100
       总共:100份不同的参数
       
LoopWM(4层循环25次):
输入 → [层1-4] → [层1-4] → [层1-4] → ... → 输出
       同一套参数,跑25轮
       总共:4份参数

传统模型的参数量 = 100 × 每层参数 LoopWM的参数量 = 4 × 每层参数(与循环次数无关!)

参数效率:25倍。论文报告最高可达100倍。

这是一个范式的转变。传统AI的Scaling Law告诉我们:模型越大越好。LoopWM说:模型可以更聪明地"深",而不是更笨地"大"

> 小贴士:这有点像解方程时的迭代法。你要找√2,可以先猜1.4,然后不断用公式 $x_{n+1} = \frac{1}{2}(x_n + \frac{2}{x_n})$ 迭代。不需要100个不同的公式,同一个公式反复用,越算越精确。牛顿迭代法就是这样的——简单、优雅、强大。

---

🏗️ 第三层架构:Prelude-Recurrent-Coda三重奏

好,概念理解了。但一个Transformer块循环25次,不会爆炸吗?不会发散吗?状态不会越滚越大吗?信息不会在第20次循环时变成毫无意义的噪音吗?

LoopWM的架构设计精妙地解决了这些问题。整个模型分为四个模块:

1. 观测编码器(Observation Encoder)

把原始的感官输入(比如图像、文本描述、传感器数据)压缩成一个紧凑的向量表示。这就像是把外界纷繁复杂的信息,翻译成模型能理解的"内部语言"。

2. 动作嵌入器(Action Embedder)

把智能体要执行的动作也编码成向量。这告诉模型:"我现在要做这个动作了,接下来世界会怎样变化?"

3. ★ 循环动力学核心(Looped Dynamics Core)——心脏

n这是整篇论文的心脏。它由三个子部分组成:

组件功能是否共享参数
Prelude(前奏)把上一时刻的状态、当前观测、动作拼接起来,生成条件信号不共享(独立参数)
Recurrent Block(循环块)核心!一个参数共享的Transformer块,循环T次共享(这是关键)
Coda(尾声)把最终的隐藏状态投影到输出空间不共享(独立参数)
你可以把Prelude和Coda想象成"翻译官"——Prelude把外部世界的语言翻译成模型内部的思考语言,Coda再把思考结果翻译回外部世界。真正干活的,是中间那个循环块。

这个设计的精妙之处在于:循环块是参数共享的,但Prelude和Coda不是。这意味着模型可以在每次环境交互时做特定的预处理和后处理,但核心的"物理推演引擎"是通用的、可复用的。

双重循环结构

LoopWM的循环不是单一的,而是嵌套的双重循环

循环层级范围功能
内循环(Inner Loop)t = 0,...,T-1单次环境转移的潜在状态细化
外循环(Outer Loop)k = 0,...,K-1跨时间步的信息传播
这种嵌套结构非常优雅。内循环负责"把一个状态想透彻",外循环负责"把想透的状态传给下一步"。两者共享同一个核心参数,但承担着不同的功能角色。

与Universal Transformer的联系

Dehghani等人在2019年提出的Universal Transformer(UT)是循环Transformer的先驱。UT在序列维度上做循环(对同一个token反复处理),而LoopWM在潜在状态维度上做循环(对同一个环境状态反复细化)。

这个区别很关键:

  • UT解决的是"每个token需要多少处理"
  • LoopWM解决的是"每个环境状态需要多少模拟"
两者互补——理论上可以组合:一个UT处理观测序列,一个LoopWM模拟环境演化。

延迟解码的训练目标

延迟解码不是简单的"不解码",它需要特殊的目标函数来保证潜在状态的一致性:

$$\mathcal{L}_{\text{DD}} = \underbrace{\mathcal{L}_{\text{terminal}}}_{\text{终端预测}} + \alpha \underbrace{\mathcal{L}_{\text{consist}}}_{\text{潜在一致性}} + \beta \underbrace{\max(0, \sum\|h_{k+1}-h_k\|^2 - K\cdot C_{\max})}_{\text{谱收缩预算}}$$

三项分别确保: 1. 最终解码的准确性 2. 中间潜在状态的平滑过渡 3. 状态变化不超过物理合理范围

---

🛡️ 第四层稳定性:如何让循环不爆炸

现在来到技术难点:同一个块循环25次,隐藏状态会不会指数级爆炸?

历史上,循环神经网络(RNN)就深受这个问题的困扰。LSTM和GRU之所以被发明出来,就是为了解决"梯度爆炸/消失"的问题——当你把同一个变换重复应用很多次时,小的误差会被指数级放大,最终让模型完全失控。

LoopWM给出了一套优雅的解决方案:谱稳定性约束(Spectral Stability Constraints)。

这个名字听起来吓人,其实概念很直观。

想象你在掷一个橡皮球。你每次把它往地上扔,它弹起来,但高度越来越低——因为能量在每次碰撞中散失了一点。最终,球会停下来。即使你永远不停止扔它,球的高度也不会超过某个上限。

LoopWM的隐藏状态演化也是这样设计的:

$$h^{(t+1)} = \underbrace{\bar{A}h^{(t)}}_{\text{保留(但衰减)}} + \underbrace{\bar{B}e}_{\text{新输入}} + \underbrace{\bar{R}(h^{(t)}, e)}_{\text{非线性变换}}$$

其中,$\bar{A}$ 是一个对角矩阵,它的所有对角元素都在 (0, 1) 之间。这意味着:每次迭代,旧状态会被"打折"保留,不会让历史信息无限累积。

更妙的是,这个衰减率不是手工设定的,而是可学习的。模型自己学会"每次保留多少旧信息"。

具体来说,作者使用了连续时间参数化:

  • $A = \text{diag}(-\exp(a))$,其中 $a \in \mathbb{R}^d$ 是可学习的
  • 离散化后:$\bar{A} = \exp(\Delta \cdot A)$,其中 $\Delta \in \mathbb{R}^d_{>0}$ 也是可学习的
这种参数化保证了两件事: 1. $\bar{A}$ 的所有特征值都在 (0, 1) 之间 2. 谱半径 $\rho(\bar{A}) < 1$ 由构造保证

这意味着:无论循环多少次,这个系统的输出都是有界的——不会爆炸,不会发散。这给了LoopWM理论上任意深度循环的安全保证。

> 小贴士:"谱"是线性代数里的概念,指一个矩阵的特征值。谱半径(最大的特征值绝对值)决定了迭代系统的稳定性。LoopWM通过构造把谱半径严格控制在1以下,就像给弹簧加了阻尼器——无论怎么晃,最终都会停下来。

---

🧠 第五层自适应:简单的问题想少点,复杂的想多点

这是LoopWM最让我兴奋的地方——自适应计算(Adaptive Computation)。

传统模型是"一根筋"的:不管问题简单还是复杂,都跑固定的100层。就像一个学生,做1+1和做微积分,都用同样的时间、同样的步骤。这显然是低效的。

但LoopWM可以自己决定"想够了没"

训练:随机深度采样

训练阶段,模型使用随机深度采样:每次前向传播,循环次数T从一个泊松分布中随机抽取:

$$T \sim \text{Poisson}(\mu_{\text{rec}})$$

关键是:每序列独立采样(而不是每批次统一采样),这降低了训练目标的方差,消除了大部分损失尖峰。

这强迫模型学会"在任何循环深度都能给出合理答案"。就像一个运动员,既要能跑百米冲刺,也要能跑马拉松。

推理:自适应早退出

推理阶段,模型用了一个退出门控(Exit Gate):

$$g^{(t)} = \sigma(w_g^\top h^{(t)} + b_g)$$

如果门控值超过阈值 $\tau$,就停止循环,输出当前结果。

这意味着:

  • 简单场景(比如自由飞行、直线移动、空旷环境中的简单导航):1-2次循环就够了,节省大量计算
  • 复杂场景(比如碰撞、交互、多物体动力学、需要精细操作的任务):模型会自动循环更多次,直到"想明白"
论文展示了一个令人震惊的对比:

场景固定深度基线LoopWM自适应
简单自由飞行100层全量计算1次循环(等效4层)→ 25× FLOPs减少
复杂碰撞事件100层全量计算25次循环(等效100层)
长程混合轨迹100层 × 每步平均2-3次循环 → ~100× FLOPs减少
这就是"思考深度"作为新的扩展轴——不再是堆参数,而是让模型学会"何时想、想多久"。

测试时计算扩展

还有一个巧妙的点:测试时的最大循环次数 $T_{\text{max}}$ 可以超过训练时的均值 $\mu_{\text{rec}}$。这意味着你可以在部署时"奖励"模型更多的思考时间,来提升预测质量——而不需要重新训练。

---

🎯 第六层延迟解码:不要每步都看答案

LoopWM还有一个精妙的设计,叫Deferred Decoding(延迟解码)

传统世界模型有个毛病:每模拟一步,就要把隐藏状态解码成可观测的输出。这很浪费——如果我只是想规划"5步之后的状态",为什么每步都要解码一次?就像你下棋时,脑子里推演10步后的局面,不需要每步都在棋盘上真的摆出来。

LoopWM的做法是:模拟K步的过程中,只更新隐藏状态,不做任何解码。等到最后一步,才一次性解码出最终结果。

传统(每步解码): 模拟10步 = 10次解码
LoopWM(延迟解码): 模拟10步 = 1次解码(最后一步)

这带来的不仅是计算效率的提升,还有表示质量的提升——因为模型不需要在每一步都"翻译"回观测空间,它可以在纯粹的潜在空间中做更深、更抽象的推理。

论文显示,这种设计在ScienceWorld数据集上带来了惊人的提升:

步数EM提升F1提升BLEU提升
Step 1+73.2%+16.4%+47.0%
Step 2+54.5%+21.4%+41.7%
Step 3+103.6%+28.1%+65.0%
Step 4+82.9%+29.0%+55.5%
Step 5+113.8%+22.4%+54.6%
有趣的是,步数越远,优势越大。这意味着延迟解码不只是一个工程优化——它改变了模型的"思考方式",让它更专注于长期规划,而不是被即时的观测需求分散注意力。

在极端案例中,"Boil任务"的第5步,EM提升了+500.9%。这不是渐进式改善,这是质的飞跃。

---

🏆 第七层结果: David vs Goliath

LoopWM的实验结果堪称惊艳,尤其是在ScienceWorld基准测试上——这是一个需要智能体在科学环境中执行多步骤任务的测试集,考验长程规划、因果推理和环境模拟能力。

LoopWM与几个业界最强的闭源API模型正面交锋:

模型参数量EMToken F1BLEU-4
LoopWM (Ours)~1B68.4%85.3%80.7%
claude-opus-4-6-max>100B47.2%72.8%64.4%
gemini-3-flash-preview~?30.8%68.9%51.1%
qwen-3.5-flash~?10.0%46.9%26.7%
1B参数的LoopWM,击败了参数量可能是它100倍的Claude Opus。

在极端案例"Lifespan任务"中(需要追踪一个物体从出生到死亡的完整生命周期,考验长程记忆和状态跟踪),LoopWM取得了100%的满分,而Claude Opus是0%

这不是"稍微好一点",这是代际差异

在AlfWorld数据集上(家庭环境中的导航和交互任务),LoopWM虽然不是每一项都第一,但在BLEU-4上取得最佳(71.6%),EM和Token F1排名第二。考虑到它的参数量只有对手的1/100,这已经是非常惊人的表现。

ScienceWorld:1B击败100B的战场

ScienceWorld是这篇论文的主战场,值得单独说一说。

这是一个基于文本的交互环境,智能体需要通过自然语言命令在虚拟的科学实验室中执行任务。比如:"找到温度计,测量水的沸点,记录结果"。看似简单,但实际上需要:

  • 理解指令的意图
  • 在环境中导航
  • 与物体交互
  • 执行多步骤操作
  • 跟踪任务进度
这些任务对人类来说 trivial,但对AI来说极其困难——因为它需要长程规划状态跟踪

LoopWM在这个基准上的优势如此之大,以至于结果看起来几乎不真实。但如果我们仔细分析,原因其实很清晰:

1. 循环架构天然适合迭代推理:科学任务本身就是迭代的——观察、假设、实验、验证、修正。LoopWM的循环结构与世界模型的迭代本质完美契合。

2. 自适应计算匹配任务复杂度:简单任务(如拿起一个物体)只需要少量循环;复杂任务(如设计一个完整实验)自动获得更多计算资源。

3. 延迟解码专注长期目标:当模型不需要每步都解码时,它可以把更多的表示容量用于规划,而不是被即时的观测重建分散注意力。

AlfWorld:接近SOTA的小模型

在家庭环境AlfWorld上,LoopWM虽然没有全面碾压,但表现依然令人印象深刻:

模型EMToken F1BLEU-4Entity
LoopWM51.6%80.4%71.6%81.1%
claude-opus-4-6-max53.0%72.6%66.8%77.0%
gemini-3-flash-preview50.0%83.5%71.0%90.2%
LoopWM在BLEU-4上第一,EM和Token F1第二。考虑到它的参数量只有1B,而对手是100B+的闭源模型,这已经是非常惊人的表现。

BLEU-4衡量的是生成文本与参考答案的匹配度——LoopWM在这个指标上的领先说明,它的输出质量(语言的流畅性和准确性)超越了规模更大的对手。

扩展定律的新维度

LoopWM最重要的理论贡献,是提出了一个新的扩展轴

> "Orthogonal to scaling model size and training data, LoopWM establishes iterative latent depth as a new scaling axis for world simulation."

传统AI的扩展有三个维度: 1. 模型规模(参数数量) 2. 训练数据量 3. 训练计算量

LoopWM增加了第四个: 4. 迭代潜在深度(循环次数T)

这个新维度的独特之处在于:

  • 它不增加参数(T与参数无关)
  • 它在推理时动态可调(测试时计算扩展)
  • 它天然支持自适应(简单问题用少循环,复杂问题用多循环)
这意味着,未来我们可能看到"思考深度"成为与"模型大小"同等重要的超参数。就像现在的模型卡会标注"7B参数",未来的模型卡可能会标注"4层,支持1-100次循环"。

LoopWM给我的最大启发,不是它节省了100倍参数,也不是它击败了100倍大的模型。

而是它揭示了一个更深刻的原理:

> 迭代本身就是智能的核心机制。

人类思考是迭代的。你解一道数学题,不是一步到位的——你写下草稿,检查错误,重新推导,反复修正。你写一篇文章,不是从头到尾一次成型——你打草稿、删改、重写、润色。你和人争论一个观点,也不是一次性说完——你提出论点,对方反驳,你修正,再反驳,直到双方达成共识。

物理世界是迭代的。行星轨道是引力定律的反复应用。DNA复制是生化反应的循环进行。季节更替是地球公转和自转的循环结果。

连宇宙本身可能都是迭代的——大爆炸后的膨胀、冷却、结构形成,也许只是某个更宏大循环的一部分。佛教的轮回、尼采的永恒轮回、庞加莱的回归定理,都在不同的语境下指向同一个深层结构:循环不是重复,而是螺旋上升

LoopWM告诉我们:与其为每一次思考都准备一套全新的参数,不如准备好一套好的参数,然后反复用、深入用、用到极致

这不是参数的堆砌,这是智慧的修炼。

就像《土拨鼠之日》的男主角,最终不是因为他拥有了更多资源,而是因为他学会了在重复中进化、在循环中成长。他从厌恶那一天,到接受那一天,到利用那一天,最终超越了那一天。

AI的下一个飞跃,也许不是更大的模型,而是更聪明的循环。

正如一位物理学家所说:

> "宇宙不是一个状态,而是一个过程。"

也许,智能也是如此。

---

📚 参考文献

1. Lu, H. A., et al. (2026). *Looped World Models*. arXiv preprint arXiv:2606.18208. 2. Ha, D., & Schmidhuber, J. (2018). *World Models*. arXiv:1803.10122. 3. Hafner, D., et al. (2020). *Dream to Control: Learning Behaviors by Latent Imagination*. ICLR 2020. 4. Dehghani, M., et al. (2019). *The Universal Transformer*. ICLR 2019. 5. Vaswani, A., et al. (2017). *Attention Is All You Need*. NeurIPS 2017.

---

#论文解读 #arXiv #世界模型 #循环架构 #自适应计算 #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens