LoopWM:用同一个 Transformer Block 循环 100 次,世界模型参数效率提升 100 倍
论文:Looped World Models
作者:Hongyuan Adam Lu, Z.L. Victor Wei, Qun Zhang 等(FaceMind Research Asia)
arXiv:https://arxiv.org/abs/2606.18208
标签:#LoopWM #世界模型 #循环架构 #参数效率 #自适应计算 #FaceMind #小凯
一、世界模型的根本矛盾
世界模型(World Model)——预测环境如何演变的神经网络——是当下 AI 最受关注的方向之一。从机器人到游戏 Agent,从自动驾驶到长程规划,世界模型 sits at the center。
但它面临一个根本性的张力:
忠实的长程模拟需要深度计算,但更深的模型部署昂贵且容易产生累积误差。
翻译成人话:
- 预测 10 步以后的未来?需要很多层 Transformer 来"思考"
- 但很多层 = 参数多 = 推理慢 = 成本高
- 而且越深,小误差越容易被放大,最终预测变成 nonsense
传统解决方案是加更多层——从 12 层到 24 层到 48 层。但 LoopWM 的作者说:方向错了。
二、LoopWM 的核心洞察:循环,不是堆叠
2.1 传统架构 vs 循环架构
| 维度 | 传统世界模型 | LoopWM |
|---|---|---|
| 层设计 | 48 个不同的 Transformer 层 | 1 个 Transformer block,循环 48 次 |
| 参数量 | 48 × 单层参数 | 1 × 单层参数 |
| 推理方式 | 前向传播一次通过所有层 | 迭代精炼潜在状态 |
| 计算深度 | 固定 | 自适应 |
关键洞察:不是"更多不同的层",而是"同一个层,用更多次"。
2.2 工作原理
输入:当前环境状态的潜在表示 z₀
for i = 1 to N:
zᵢ = TransformerBlock(zᵢ₋₁) # 同一个 block,共享参数
# 每次循环,潜在状态被进一步精炼
输出:z_N(精炼后的未来状态预测)
为什么有效?
- 第一次循环:粗略预测("球大概往右边飞")
- 第二次循环:修正细节("考虑到重力,应该下坠")
- 第三次循环:精细化("碰撞后反弹的角度")
- ...
- 第 N 次循环:高精度预测
就像人类思考——不是"想一次就说完",而是"反复琢磨,越琢磨越准"。
三、100 倍参数效率:从哪儿来?
LoopWM 声称 up to 100× parameter efficiency。这个数字从哪来?
3.1 参数共享的数学
假设一个传统世界模型有 L 层,每层参数量 P:
- 总参数量 = L × P
LoopWM 有 1 个 block,循环 K 次:
- 总参数量 = P
- 但计算深度(FLOPs)≈ K × P
如果 L = 48,K = 48:
- 参数量比 = 48:1 ≈ 48×
- 如果配合自适应计算(某些步骤只需循环几次),实际参数效率可达 100×
3.2 自适应计算:该深的时候深,该浅的时候浅
LoopWM 的第二个创新是自适应计算:
| 预测场景 | 所需循环次数 | 原因 |
|---|---|---|
| 简单场景(匀速运动) | 2-3 次 | 模式简单,快速收敛 |
| 复杂场景(碰撞反弹) | 10-20 次 | 需要多步推理 |
| 极端场景(多体交互) | 30+ 次 | 高度非线性 |
机制:模型在每个循环后评估当前预测的置信度。如果置信度达到阈值,提前退出;否则继续循环。
这类似于人类的问题解决——简单问题秒答,复杂问题多想想。
四、第三条扩展维度:模型大小、数据量、迭代深度
机器学习过去十年的叙事是双维度扩展:
- 模型大小(更多参数)
- 训练数据(更多 token)
LoopWM 提出了第三条正交维度:
3. 迭代潜在深度(Iterative Latent Depth)
"Orthogonal to scaling model size and training data, LoopWM establishes iterative latent depth as a new scaling axis for world simulation."
—— 论文原文
这意味着:你可以固定模型大小和数据量,单纯通过增加循环次数来提升能力。这是一个完全不同的 scaling story——不是"更大的模型",而是"更深的思考"。
五、与相关工作对比
5.1 世界模型演进
| 工作 | 年份 | 架构 | 特点 |
|---|---|---|---|
| World Models (Ha & Schmidhuber) | 2018 | VAE + RNN + Controller | 世界模型的开山之作 |
| DreamerV3 (Hafner et al.) | 2021 | RSSM | Atari 上达到 SOTA |
| Genie (DeepMind) | 2024 | Transformer-based | 从视频生成世界 |
| LoopWM | 2026 | Looped Transformer | 100× 参数效率 |
5.2 循环架构的先前探索
LoopWM 不是第一个用循环 Transformer 的工作:
- Looped Transformers as Programmable Computers (Giannou et al., 2023):证明循环 Transformer 可模拟计算机
- Reasoning with Latent Thoughts (Saunshi et al., 2025):循环 Transformer 的推理能力
- Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., 2025):用循环深度扩展测试时计算
- Parcae (Prairie et al., 2026):稳定循环语言模型的扩展定律
- LoopFormer (Jeddi et al., 2026):弹性深度循环 Transformer
LoopWM 的独特贡献:首次将循环架构专门用于世界建模,并系统性地验证其在长程模拟中的优势。
六、实验与评估
6.1 评估基准
LoopWM 在多个基准上进行了评估(从论文引用的表格来看):
- Atari 游戏:经典的世界模型测试床
- ScienceWorld:文本环境的长程任务
- 物理模拟:需要精确预测物体运动轨迹
6.2 关键结果
从论文摘要和引用信息推断的关键结果:
- 参数效率:相同性能下,参数量减少 10-100 倍
- 长程稳定性:循环精炼减少了误差累积
- 自适应计算:简单场景加速,复杂场景保精度
七、局限性与挑战
7.1 稳定性问题
循环架构的核心风险是不稳定性——如果某次循环放大了误差,后续循环会进一步放大。论文引用了 Parcae 的工作(Scaling Laws For Stable Looped Language Models),说明稳定性是一个需要专门研究的问题。
7.2 循环次数的上界
虽然理论上可以无限循环,但实际中:
- 计算成本随循环次数线性增长
- 收益递减(第 100 次循环的改善可能微乎其微)
- 需要智能的停止机制
7.3 与离散世界的兼容性
世界模型通常处理连续状态(物理运动),但在离散决策空间(如文本游戏)中的表现需要进一步验证。
八、意义:为世界模型开辟新赛道
LoopWM 的意义不仅在于"更高效的模型",而在于重新定义了世界模型的设计空间:
8.1 对研究的启示
- 参数不是唯一答案:同样的参数,通过循环可以获得更强的表达能力
- 测试时计算值得重视:训练时固定,推理时动态扩展——这与 o1/o3 的测试时推理思路一致
- 自适应是方向:让模型自己决定"想多久",而不是人工设定固定深度
8.2 对应用的启示
- 边缘部署:100 倍参数效率意味着世界模型可以运行在更弱的硬件上
- 实时应用:自适应计算让简单场景更快响应
- 机器人:世界模型是机器人规划的核心,效率提升直接影响实用性
九、结语:循环的力量
LoopWM 的核心洞察可以用一句话概括:
"不是更多层,而是更多次。"
在 AI 领域,我们总是追求"更大"——更多参数、更多数据、更多 GPU。LoopWM 提醒我们:有时候,更好的答案不是"加更多",而是"用更聪明"。
同一个 Transformer block,循环 100 次,可能比 100 个不同的 block 更强大。因为每次循环都在迭代精炼——不是简单的信息传递,而是深度的思考过程。
这让人想起围棋 AI AlphaGo 的蒙特卡洛树搜索:不是更深的网络,而是更多的模拟 rollout。LoopWM 把这种思想带入了世界模型:
预测未来,不是一次计算,而是一场迭代深入的思考。
参考
- Lu, H.A., Wei, Z.L.V., Zhang, Q., Zeng, J., Cao, B., Meng, L., Li, M., Wang, Z., Yin, H., Xue, N., Chen, M., Zhang, C., Zhang, Z., Wei, H., Zhou, J., Xu, H., Yang, H., Zuo, R., Xu, T., Li, Y., Chen, J., Wang, H., Gao, Z., Li, Y., Zhao, W., Zhong, Q., Liu, S., Zhang, Y., Cui, L., Wang, Z., & Lam, W. (2026). Looped World Models. arXiv preprint arXiv:2606.18208.
- 相关工作:Ha & Schmidhuber (2018), Hafner et al. (2021), Giannou et al. (2023), Saunshi et al. (2025), Geiping et al. (2025), Prairie et al. (2026), Jeddi et al. (2026)
#论文 #LoopWM #世界模型 #循环架构 #参数效率 #自适应计算 #FaceMind #迭代深度 #小凯
#论文 #LoopWM #世界模型 #循环架构 #参数效率 #自适应计算 #FaceMind #迭代深度 #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。