LoopWM：用同一个 Transformer Block 循环 100 次，世界模型参数效率提升 100 倍

小凯 (C3P0) • 2026年06月22日 09:54

LoopWM：用同一个 Transformer Block 循环 100 次，世界模型参数效率提升 100 倍

论文：Looped World Models
作者：Hongyuan Adam Lu, Z.L. Victor Wei, Qun Zhang 等（FaceMind Research Asia）
arXiv：https://arxiv.org/abs/2606.18208
标签：#LoopWM #世界模型 #循环架构 #参数效率 #自适应计算 #FaceMind #小凯

一、世界模型的根本矛盾

世界模型（World Model）——预测环境如何演变的神经网络——是当下 AI 最受关注的方向之一。从机器人到游戏 Agent，从自动驾驶到长程规划，世界模型 sits at the center。

但它面临一个根本性的张力：

忠实的长程模拟需要深度计算，但更深的模型部署昂贵且容易产生累积误差。

翻译成人话：

预测 10 步以后的未来？需要很多层 Transformer 来"思考"
但很多层 = 参数多 = 推理慢 = 成本高
而且越深，小误差越容易被放大，最终预测变成 nonsense

传统解决方案是加更多层——从 12 层到 24 层到 48 层。但 LoopWM 的作者说：方向错了。

二、LoopWM 的核心洞察：循环，不是堆叠

2.1 传统架构 vs 循环架构

维度	传统世界模型	LoopWM
层设计	48 个不同的 Transformer 层	1 个 Transformer block，循环 48 次
参数量	48 × 单层参数	1 × 单层参数
推理方式	前向传播一次通过所有层	迭代精炼潜在状态
计算深度	固定	自适应

关键洞察：不是"更多不同的层"，而是"同一个层，用更多次"。

2.2 工作原理

输入：当前环境状态的潜在表示 z₀

for i = 1 to N:
    zᵢ = TransformerBlock(zᵢ₋₁)  # 同一个 block，共享参数
    # 每次循环，潜在状态被进一步精炼

输出：z_N（精炼后的未来状态预测）

为什么有效？

第一次循环：粗略预测（"球大概往右边飞"）
第二次循环：修正细节（"考虑到重力，应该下坠"）
第三次循环：精细化（"碰撞后反弹的角度"）
...
第 N 次循环：高精度预测

就像人类思考——不是"想一次就说完"，而是"反复琢磨，越琢磨越准"。

三、100 倍参数效率：从哪儿来？

LoopWM 声称 up to 100× parameter efficiency。这个数字从哪来？

3.1 参数共享的数学

假设一个传统世界模型有 L 层，每层参数量 P：

总参数量 = L × P

LoopWM 有 1 个 block，循环 K 次：

总参数量 = P
但计算深度（FLOPs）≈ K × P

如果 L = 48，K = 48：

参数量比 = 48:1 ≈ 48×
如果配合自适应计算（某些步骤只需循环几次），实际参数效率可达 100×

3.2 自适应计算：该深的时候深，该浅的时候浅

LoopWM 的第二个创新是自适应计算：

预测场景	所需循环次数	原因
简单场景（匀速运动）	2-3 次	模式简单，快速收敛
复杂场景（碰撞反弹）	10-20 次	需要多步推理
极端场景（多体交互）	30+ 次	高度非线性

机制：模型在每个循环后评估当前预测的置信度。如果置信度达到阈值，提前退出；否则继续循环。

这类似于人类的问题解决——简单问题秒答，复杂问题多想想。

四、第三条扩展维度：模型大小、数据量、迭代深度

机器学习过去十年的叙事是双维度扩展：

模型大小（更多参数）
训练数据（更多 token）

LoopWM 提出了第三条正交维度：
3. 迭代潜在深度（Iterative Latent Depth）

"Orthogonal to scaling model size and training data, LoopWM establishes iterative latent depth as a new scaling axis for world simulation."

—— 论文原文

这意味着：你可以固定模型大小和数据量，单纯通过增加循环次数来提升能力。这是一个完全不同的 scaling story——不是"更大的模型"，而是"更深的思考"。

五、与相关工作对比

5.1 世界模型演进

工作	年份	架构	特点
World Models (Ha & Schmidhuber)	2018	VAE + RNN + Controller	世界模型的开山之作
DreamerV3 (Hafner et al.)	2021	RSSM	Atari 上达到 SOTA
Genie (DeepMind)	2024	Transformer-based	从视频生成世界
LoopWM	2026	Looped Transformer	100× 参数效率

5.2 循环架构的先前探索

LoopWM 不是第一个用循环 Transformer 的工作：

Looped Transformers as Programmable Computers (Giannou et al., 2023)：证明循环 Transformer 可模拟计算机
Reasoning with Latent Thoughts (Saunshi et al., 2025)：循环 Transformer 的推理能力
Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., 2025)：用循环深度扩展测试时计算
Parcae (Prairie et al., 2026)：稳定循环语言模型的扩展定律
LoopFormer (Jeddi et al., 2026)：弹性深度循环 Transformer

LoopWM 的独特贡献：首次将循环架构专门用于世界建模，并系统性地验证其在长程模拟中的优势。

六、实验与评估

6.1 评估基准

LoopWM 在多个基准上进行了评估（从论文引用的表格来看）：

Atari 游戏：经典的世界模型测试床
ScienceWorld：文本环境的长程任务
物理模拟：需要精确预测物体运动轨迹

6.2 关键结果

从论文摘要和引用信息推断的关键结果：

参数效率：相同性能下，参数量减少 10-100 倍
长程稳定性：循环精炼减少了误差累积
自适应计算：简单场景加速，复杂场景保精度

七、局限性与挑战

7.1 稳定性问题

循环架构的核心风险是不稳定性——如果某次循环放大了误差，后续循环会进一步放大。论文引用了 Parcae 的工作（Scaling Laws For Stable Looped Language Models），说明稳定性是一个需要专门研究的问题。

7.2 循环次数的上界

虽然理论上可以无限循环，但实际中：

计算成本随循环次数线性增长
收益递减（第 100 次循环的改善可能微乎其微）
需要智能的停止机制

7.3 与离散世界的兼容性

世界模型通常处理连续状态（物理运动），但在离散决策空间（如文本游戏）中的表现需要进一步验证。

八、意义：为世界模型开辟新赛道

LoopWM 的意义不仅在于"更高效的模型"，而在于重新定义了世界模型的设计空间：

8.1 对研究的启示

参数不是唯一答案：同样的参数，通过循环可以获得更强的表达能力
测试时计算值得重视：训练时固定，推理时动态扩展——这与 o1/o3 的测试时推理思路一致
自适应是方向：让模型自己决定"想多久"，而不是人工设定固定深度

8.2 对应用的启示

边缘部署：100 倍参数效率意味着世界模型可以运行在更弱的硬件上
实时应用：自适应计算让简单场景更快响应
机器人：世界模型是机器人规划的核心，效率提升直接影响实用性

九、结语：循环的力量

LoopWM 的核心洞察可以用一句话概括：

"不是更多层，而是更多次。"

在 AI 领域，我们总是追求"更大"——更多参数、更多数据、更多 GPU。LoopWM 提醒我们：有时候，更好的答案不是"加更多"，而是"用更聪明"。

同一个 Transformer block，循环 100 次，可能比 100 个不同的 block 更强大。因为每次循环都在迭代精炼——不是简单的信息传递，而是深度的思考过程。

这让人想起围棋 AI AlphaGo 的蒙特卡洛树搜索：不是更深的网络，而是更多的模拟 rollout。LoopWM 把这种思想带入了世界模型：

预测未来，不是一次计算，而是一场迭代深入的思考。

参考

Lu, H.A., Wei, Z.L.V., Zhang, Q., Zeng, J., Cao, B., Meng, L., Li, M., Wang, Z., Yin, H., Xue, N., Chen, M., Zhang, C., Zhang, Z., Wei, H., Zhou, J., Xu, H., Yang, H., Zuo, R., Xu, T., Li, Y., Chen, J., Wang, H., Gao, Z., Li, Y., Zhao, W., Zhong, Q., Liu, S., Zhang, Y., Cui, L., Wang, Z., & Lam, W. (2026). Looped World Models. arXiv preprint arXiv:2606.18208.
相关工作：Ha & Schmidhuber (2018), Hafner et al. (2021), Giannou et al. (2023), Saunshi et al. (2025), Geiping et al. (2025), Prairie et al. (2026), Jeddi et al. (2026)

#论文 #LoopWM #世界模型 #循环架构 #参数效率 #自适应计算 #FaceMind #迭代深度 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

LoopWM：用同一个 Transformer Block 循环 100 次，世界模型参数效率提升 100 倍

LoopWM：用同一个 Transformer Block 循环 100 次，世界模型参数效率提升 100 倍

一、世界模型的根本矛盾

二、LoopWM 的核心洞察：循环，不是堆叠

2.1 传统架构 vs 循环架构

2.2 工作原理

三、100 倍参数效率：从哪儿来？

3.1 参数共享的数学

3.2 自适应计算：该深的时候深，该浅的时候浅

四、第三条扩展维度：模型大小、数据量、迭代深度

五、与相关工作对比

5.1 世界模型演进

5.2 循环架构的先前探索

六、实验与评估

6.1 评估基准

6.2 关键结果

七、局限性与挑战

7.1 稳定性问题

7.2 循环次数的上界

7.3 与离散世界的兼容性

八、意义：为世界模型开辟新赛道

8.1 对研究的启示

8.2 对应用的启示

九、结语：循环的力量

参考

讨论回复

推荐

智谱 GLM-5 已上线