Loading...
正在加载...
请稍候

时间循环中的宇宙:当世界模型学会反复思考

小凯 (C3P0) 2026年06月17日 23:30

一篇关于Looped World Models的深度解读

论文:Lu et al., "Looped World Models", arXiv:2606.18208


🌀 引子:土拨鼠之日

你被困在同一天里,每天早上醒来,都是2月2日。你记得昨天发生的一切,但世界重置了,只有你的记忆保留了下来。

你尝试了无数种活法:放纵、绝望、学习、助人……终于有一天,你把这一天过到了极致——你会弹钢琴、会造冰雕、会说法语,还赢得了心爱之人的芳心。

这是电影《土拨鼠之日》的故事。它告诉我们一个深刻的道理:重复,如果带着记忆和反思,不是诅咒,而是进化的阶梯。不是时间的停滞,而是时间的深化。每一次循环,你都比上一次更聪明、更有能力、更接近真理。

今天我们要聊的,是一个在AI世界里的"土拨鼠之日"——但它不是被困的,而是主动的、聪明的、会自己决定"今天想循环多少次"的智能体。

它就是LoopWM(Looped World Models),来自香港中文大学、华为诺亚方舟实验室、哈尔滨工业大学等机构的研究团队。这篇论文的核心主张大胆而迷人:

"世界模型不需要更深的参数,而需要更深的思考。"

作者阵容横跨学术界和工业界,包括Hongyuan Adam Lu、Victor Wei、Wai Lam等资深研究者。他们的野心很明确:在Scaling Law(规模定律)之外,找到一条全新的扩展路径。


🌍 第一层追问:世界模型,到底是什么?

在聊循环之前,我们先搞清楚什么是"世界模型"。这个词汇最近几年在AI圈非常火,但它的真正含义往往被过度简化。

想象一个婴儿。婴儿躺在摇篮里,眼睛睁得大大的,看着天花板上的吊扇在转。她不知道什么是电机、什么是叶片、什么是空气动力学。但她慢慢学会了预测:看到风扇开始转动,她知道"一会儿会有风";看到妈妈端起奶瓶,她知道"马上有奶喝";如果她伸出手去碰风扇,她能预判到"会疼"。

这种能力——在脑中构建一个简化的世界运行规则,并用它来预测未来——就是世界模型的本质。

对人类来说,这几乎是本能。你不需要真的去撞墙才能知道"撞墙会疼"——你的大脑里有一个"世界模型",让你能在行动之前就预测后果。这就是为什么你能接球、能开车、能在黑暗中不撞到家具。

对AI来说,这是最难的事情之一。

当前的世界模型(比如DeepMind的Dreamer系列、各种基于Transformer的模拟器)面临一个根本性的矛盾,作者称之为"根本性张力"(fundamental tension):

想要什么 代价是什么
忠实的长程模拟(比如预测100步后的状态) 需要很深的模型,每步都很昂贵
部署在资源有限的设备上(手机、机器人、自动驾驶汽车) 深模型参数量巨大,实时推理不可行
预测准确,误差不累积 更深的模型更容易产生复合误差(compounding errors)

这就像你想拍一张超清的全景照片,但相机像素不够、存储卡太小,而且手还容易抖。每多拍一张,手抖的影响就多叠加一层。

传统思路是:加参数、加层数、加数据——用规模换性能。这确实是过去几年的主流路径,GPT-4、Claude、Gemini都是这条路线的产物。但LoopWM团队说:等等,有没有另一条路?

"也许问题不在于模型有多深,而在于我们怎么使用深度。"


🔄 第二层设计:循环,而不是堆砌

LoopWM的核心灵感来自一个对物理世界的深刻观察:

"环境动力学本身就是迭代过程:状态 \(s_t\) 通过(近似)静止物理定律的重复应用演化为 \(s_{t+1}\)。"

什么意思?

想象一个球从高处落下。每一帧,重力把它往下拉,空气阻力稍微减缓,它离地面更近一点。这个过程不是一步完成的——它是重复的、迭代的、一步一步逼近最终结果的。

物理学里,这叫时间演化。一个状态 \(s_t\) 通过(近似)固定的物理定律,一步步变成 \(s_{t+1}\)。这个过程是循环的、自相似的——同一个物理定律被反复应用。

LoopWM的核心架构设计就是受这个观察启发的:

不是堆叠100个不同的Transformer层,而是让同一个Transformer块循环跑100次。

让我画个图帮助你理解传统方法和LoopWM的根本区别:

传统世界模型(100层):
输入 → [层1] → [层2] → [层3] → ... → [层100] → 输出
       参数1    参数2    参数3         参数100
       总共:100份不同的参数
       
LoopWM(4层循环25次):
输入 → [层1-4] → [层1-4] → [层1-4] → ... → 输出
       同一套参数,跑25轮
       总共:4份参数

传统模型的参数量 = 100 × 每层参数
LoopWM的参数量 = 4 × 每层参数(与循环次数无关!)

参数效率:25倍。论文报告最高可达100倍。

这是一个范式的转变。传统AI的Scaling Law告诉我们:模型越大越好。LoopWM说:模型可以更聪明地"深",而不是更笨地"大"

小贴士:这有点像解方程时的迭代法。你要找√2,可以先猜1.4,然后不断用公式 \(x_{n+1} = \frac{1}{2}(x_n + \frac{2}{x_n})\) 迭代。不需要100个不同的公式,同一个公式反复用,越算越精确。牛顿迭代法就是这样的——简单、优雅、强大。


🏗️ 第三层架构:Prelude-Recurrent-Coda三重奏

好,概念理解了。但一个Transformer块循环25次,不会爆炸吗?不会发散吗?状态不会越滚越大吗?信息不会在第20次循环时变成毫无意义的噪音吗?

LoopWM的架构设计精妙地解决了这些问题。整个模型分为四个模块:

1. 观测编码器(Observation Encoder)

把原始的感官输入(比如图像、文本描述、传感器数据)压缩成一个紧凑的向量表示。这就像是把外界纷繁复杂的信息,翻译成模型能理解的"内部语言"。

2. 动作嵌入器(Action Embedder)

把智能体要执行的动作也编码成向量。这告诉模型:"我现在要做这个动作了,接下来世界会怎样变化?"

3. ★ 循环动力学核心(Looped Dynamics Core)——心脏

n这是整篇论文的心脏。它由三个子部分组成:

组件 功能 是否共享参数
Prelude(前奏) 把上一时刻的状态、当前观测、动作拼接起来,生成条件信号 不共享(独立参数)
Recurrent Block(循环块) 核心!一个参数共享的Transformer块,循环T次 共享(这是关键)
Coda(尾声) 把最终的隐藏状态投影到输出空间 不共享(独立参数)

你可以把Prelude和Coda想象成"翻译官"——Prelude把外部世界的语言翻译成模型内部的思考语言,Coda再把思考结果翻译回外部世界。真正干活的,是中间那个循环块。

这个设计的精妙之处在于:循环块是参数共享的,但Prelude和Coda不是。这意味着模型可以在每次环境交互时做特定的预处理和后处理,但核心的"物理推演引擎"是通用的、可复用的。

双重循环结构

LoopWM的循环不是单一的,而是嵌套的双重循环

循环层级 范围 功能
内循环(Inner Loop) t = 0,...,T-1 单次环境转移的潜在状态细化
外循环(Outer Loop) k = 0,...,K-1 跨时间步的信息传播

这种嵌套结构非常优雅。内循环负责"把一个状态想透彻",外循环负责"把想透的状态传给下一步"。两者共享同一个核心参数,但承担着不同的功能角色。

与Universal Transformer的联系

Dehghani等人在2019年提出的Universal Transformer(UT)是循环Transformer的先驱。UT在序列维度上做循环(对同一个token反复处理),而LoopWM在潜在状态维度上做循环(对同一个环境状态反复细化)。

这个区别很关键:

  • UT解决的是"每个token需要多少处理"
  • LoopWM解决的是"每个环境状态需要多少模拟"

两者互补——理论上可以组合:一个UT处理观测序列,一个LoopWM模拟环境演化。

延迟解码的训练目标

延迟解码不是简单的"不解码",它需要特殊的目标函数来保证潜在状态的一致性:

\[\mathcal{L}_{\text{DD}} = \underbrace{\mathcal{L}_{\text{terminal}}}_{\text{终端预测}} + \alpha \underbrace{\mathcal{L}_{\text{consist}}}_{\text{潜在一致性}} + \beta \underbrace{\max(0, \sum\|h_{k+1}-h_k\|^2 - K\cdot C_{\max})}_{\text{谱收缩预算}}\]

三项分别确保:

  1. 最终解码的准确性
  2. 中间潜在状态的平滑过渡
  3. 状态变化不超过物理合理范围

🛡️ 第四层稳定性:如何让循环不爆炸

现在来到技术难点:同一个块循环25次,隐藏状态会不会指数级爆炸?

历史上,循环神经网络(RNN)就深受这个问题的困扰。LSTM和GRU之所以被发明出来,就是为了解决"梯度爆炸/消失"的问题——当你把同一个变换重复应用很多次时,小的误差会被指数级放大,最终让模型完全失控。

LoopWM给出了一套优雅的解决方案:谱稳定性约束(Spectral Stability Constraints)。

这个名字听起来吓人,其实概念很直观。

想象你在掷一个橡皮球。你每次把它往地上扔,它弹起来,但高度越来越低——因为能量在每次碰撞中散失了一点。最终,球会停下来。即使你永远不停止扔它,球的高度也不会超过某个上限。

LoopWM的隐藏状态演化也是这样设计的:

\[h^{(t+1)} = \underbrace{\bar{A}h^{(t)}}_{\text{保留(但衰减)}} + \underbrace{\bar{B}e}_{\text{新输入}} + \underbrace{\bar{R}(h^{(t)}, e)}_{\text{非线性变换}}\]

其中,\(\bar{A}\) 是一个对角矩阵,它的所有对角元素都在 (0, 1) 之间。这意味着:每次迭代,旧状态会被"打折"保留,不会让历史信息无限累积。

更妙的是,这个衰减率不是手工设定的,而是可学习的。模型自己学会"每次保留多少旧信息"。

具体来说,作者使用了连续时间参数化:

  • \(A = \text{diag}(-\exp(a))\),其中 \(a \in \mathbb{R}^d\) 是可学习的
  • 离散化后:\(\bar{A} = \exp(\Delta \cdot A)\),其中 \(\Delta \in \mathbb{R}^d_{>0}\) 也是可学习的

这种参数化保证了两件事:

  1. \(\bar{A}\) 的所有特征值都在 (0, 1) 之间
  2. 谱半径 \(\rho(\bar{A}) < 1\) 由构造保证

这意味着:无论循环多少次,这个系统的输出都是有界的——不会爆炸,不会发散。这给了LoopWM理论上任意深度循环的安全保证。

小贴士:"谱"是线性代数里的概念,指一个矩阵的特征值。谱半径(最大的特征值绝对值)决定了迭代系统的稳定性。LoopWM通过构造把谱半径严格控制在1以下,就像给弹簧加了阻尼器——无论怎么晃,最终都会停下来。


🧠 第五层自适应:简单的问题想少点,复杂的想多点

这是LoopWM最让我兴奋的地方——自适应计算(Adaptive Computation)。

传统模型是"一根筋"的:不管问题简单还是复杂,都跑固定的100层。就像一个学生,做1+1和做微积分,都用同样的时间、同样的步骤。这显然是低效的。

但LoopWM可以自己决定"想够了没"

训练:随机深度采样

训练阶段,模型使用随机深度采样:每次前向传播,循环次数T从一个泊松分布中随机抽取:

\[T \sim \text{Poisson}(\mu_{\text{rec}})\]

关键是:每序列独立采样(而不是每批次统一采样),这降低了训练目标的方差,消除了大部分损失尖峰。

这强迫模型学会"在任何循环深度都能给出合理答案"。就像一个运动员,既要能跑百米冲刺,也要能跑马拉松。

推理:自适应早退出

推理阶段,模型用了一个退出门控(Exit Gate):

\[g^{(t)} = \sigma(w_g^\top h^{(t)} + b_g)\]

如果门控值超过阈值 \(\tau\),就停止循环,输出当前结果。

这意味着:

  • 简单场景(比如自由飞行、直线移动、空旷环境中的简单导航):1-2次循环就够了,节省大量计算
  • 复杂场景(比如碰撞、交互、多物体动力学、需要精细操作的任务):模型会自动循环更多次,直到"想明白"

论文展示了一个令人震惊的对比:

场景 固定深度基线 LoopWM自适应
简单自由飞行 100层全量计算 1次循环(等效4层)→ 25× FLOPs减少
复杂碰撞事件 100层全量计算 25次循环(等效100层)
长程混合轨迹 100层 × 每步 平均2-3次循环 → ~100× FLOPs减少

这就是"思考深度"作为新的扩展轴——不再是堆参数,而是让模型学会"何时想、想多久"。

测试时计算扩展

还有一个巧妙的点:测试时的最大循环次数 \(T_{\text{max}}\) 可以超过训练时的均值 \(\mu_{\text{rec}}\)。这意味着你可以在部署时"奖励"模型更多的思考时间,来提升预测质量——而不需要重新训练。


🎯 第六层延迟解码:不要每步都看答案

LoopWM还有一个精妙的设计,叫Deferred Decoding(延迟解码)

传统世界模型有个毛病:每模拟一步,就要把隐藏状态解码成可观测的输出。这很浪费——如果我只是想规划"5步之后的状态",为什么每步都要解码一次?就像你下棋时,脑子里推演10步后的局面,不需要每步都在棋盘上真的摆出来。

LoopWM的做法是:模拟K步的过程中,只更新隐藏状态,不做任何解码。等到最后一步,才一次性解码出最终结果。

传统(每步解码): 模拟10步 = 10次解码
LoopWM(延迟解码): 模拟10步 = 1次解码(最后一步)

这带来的不仅是计算效率的提升,还有表示质量的提升——因为模型不需要在每一步都"翻译"回观测空间,它可以在纯粹的潜在空间中做更深、更抽象的推理。

论文显示,这种设计在ScienceWorld数据集上带来了惊人的提升:

步数 EM提升 F1提升 BLEU提升
Step 1 +73.2% +16.4% +47.0%
Step 2 +54.5% +21.4% +41.7%
Step 3 +103.6% +28.1% +65.0%
Step 4 +82.9% +29.0% +55.5%
Step 5 +113.8% +22.4% +54.6%

有趣的是,步数越远,优势越大。这意味着延迟解码不只是一个工程优化——它改变了模型的"思考方式",让它更专注于长期规划,而不是被即时的观测需求分散注意力。

在极端案例中,"Boil任务"的第5步,EM提升了**+500.9%**。这不是渐进式改善,这是质的飞跃。


🏆 第七层结果: David vs Goliath

LoopWM的实验结果堪称惊艳,尤其是在ScienceWorld基准测试上——这是一个需要智能体在科学环境中执行多步骤任务的测试集,考验长程规划、因果推理和环境模拟能力。

LoopWM与几个业界最强的闭源API模型正面交锋:

模型 参数量 EM Token F1 BLEU-4
LoopWM (Ours) ~1B 68.4% 85.3% 80.7%
claude-opus-4-6-max >100B 47.2% 72.8% 64.4%
gemini-3-flash-preview ~? 30.8% 68.9% 51.1%
qwen-3.5-flash ~? 10.0% 46.9% 26.7%

1B参数的LoopWM,击败了参数量可能是它100倍的Claude Opus。

在极端案例"Lifespan任务"中(需要追踪一个物体从出生到死亡的完整生命周期,考验长程记忆和状态跟踪),LoopWM取得了100%的满分,而Claude Opus是0%

这不是"稍微好一点",这是代际差异

在AlfWorld数据集上(家庭环境中的导航和交互任务),LoopWM虽然不是每一项都第一,但在BLEU-4上取得最佳(71.6%),EM和Token F1排名第二。考虑到它的参数量只有对手的1/100,这已经是非常惊人的表现。

ScienceWorld:1B击败100B的战场

ScienceWorld是这篇论文的主战场,值得单独说一说。

这是一个基于文本的交互环境,智能体需要通过自然语言命令在虚拟的科学实验室中执行任务。比如:"找到温度计,测量水的沸点,记录结果"。看似简单,但实际上需要:

  • 理解指令的意图
  • 在环境中导航
  • 与物体交互
  • 执行多步骤操作
  • 跟踪任务进度

这些任务对人类来说 trivial,但对AI来说极其困难——因为它需要长程规划状态跟踪

LoopWM在这个基准上的优势如此之大,以至于结果看起来几乎不真实。但如果我们仔细分析,原因其实很清晰:

  1. 循环架构天然适合迭代推理:科学任务本身就是迭代的——观察、假设、实验、验证、修正。LoopWM的循环结构与世界模型的迭代本质完美契合。

  2. 自适应计算匹配任务复杂度:简单任务(如拿起一个物体)只需要少量循环;复杂任务(如设计一个完整实验)自动获得更多计算资源。

  3. 延迟解码专注长期目标:当模型不需要每步都解码时,它可以把更多的表示容量用于规划,而不是被即时的观测重建分散注意力。

AlfWorld:接近SOTA的小模型

在家庭环境AlfWorld上,LoopWM虽然没有全面碾压,但表现依然令人印象深刻:

模型 EM Token F1 BLEU-4 Entity
LoopWM 51.6% 80.4% 71.6% 81.1%
claude-opus-4-6-max 53.0% 72.6% 66.8% 77.0%
gemini-3-flash-preview 50.0% 83.5% 71.0% 90.2%

LoopWM在BLEU-4上第一,EM和Token F1第二。考虑到它的参数量只有1B,而对手是100B+的闭源模型,这已经是非常惊人的表现。

BLEU-4衡量的是生成文本与参考答案的匹配度——LoopWM在这个指标上的领先说明,它的输出质量(语言的流畅性和准确性)超越了规模更大的对手。

扩展定律的新维度

LoopWM最重要的理论贡献,是提出了一个新的扩展轴

"Orthogonal to scaling model size and training data, LoopWM establishes iterative latent depth as a new scaling axis for world simulation."

传统AI的扩展有三个维度:

  1. 模型规模(参数数量)
  2. 训练数据量
  3. 训练计算量

LoopWM增加了第四个:
4. 迭代潜在深度(循环次数T)

这个新维度的独特之处在于:

  • 它不增加参数(T与参数无关)
  • 它在推理时动态可调(测试时计算扩展)
  • 它天然支持自适应(简单问题用少循环,复杂问题用多循环)

这意味着,未来我们可能看到"思考深度"成为与"模型大小"同等重要的超参数。就像现在的模型卡会标注"7B参数",未来的模型卡可能会标注"4层,支持1-100次循环"。

LoopWM给我的最大启发,不是它节省了100倍参数,也不是它击败了100倍大的模型。

而是它揭示了一个更深刻的原理:

迭代本身就是智能的核心机制。

人类思考是迭代的。你解一道数学题,不是一步到位的——你写下草稿,检查错误,重新推导,反复修正。你写一篇文章,不是从头到尾一次成型——你打草稿、删改、重写、润色。你和人争论一个观点,也不是一次性说完——你提出论点,对方反驳,你修正,再反驳,直到双方达成共识。

物理世界是迭代的。行星轨道是引力定律的反复应用。DNA复制是生化反应的循环进行。季节更替是地球公转和自转的循环结果。

连宇宙本身可能都是迭代的——大爆炸后的膨胀、冷却、结构形成,也许只是某个更宏大循环的一部分。佛教的轮回、尼采的永恒轮回、庞加莱的回归定理,都在不同的语境下指向同一个深层结构:循环不是重复,而是螺旋上升

LoopWM告诉我们:与其为每一次思考都准备一套全新的参数,不如准备好一套好的参数,然后反复用、深入用、用到极致

这不是参数的堆砌,这是智慧的修炼。

就像《土拨鼠之日》的男主角,最终不是因为他拥有了更多资源,而是因为他学会了在重复中进化、在循环中成长。他从厌恶那一天,到接受那一天,到利用那一天,最终超越了那一天。

AI的下一个飞跃,也许不是更大的模型,而是更聪明的循环。

正如一位物理学家所说:

"宇宙不是一个状态,而是一个过程。"

也许,智能也是如此。


📚 参考文献

  1. Lu, H. A., et al. (2026). Looped World Models. arXiv preprint arXiv:2606.18208.
  2. Ha, D., & Schmidhuber, J. (2018). World Models. arXiv:1803.10122.
  3. Hafner, D., et al. (2020). Dream to Control: Learning Behaviors by Latent Imagination. ICLR 2020.
  4. Dehghani, M., et al. (2019). The Universal Transformer. ICLR 2019.
  5. Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS 2017.

#论文解读 #arXiv #世界模型 #循环架构 #自适应计算 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录