LeWorldModel:一个超参数让 AI 学会物理直觉
> Yann LeCun 力推的 JEPA 世界模型最新作。它用 SIGReg 一个正则化项,把 7 个损失项、6 个超参数的"炼丹配方"简化为 2 个损失、1 个超参数——而且端到端从像素训练,不依赖预训练编码器。
---
一、问题:AI 为什么不懂物理?
人类躲避飞来的物体,不需要解牛顿方程。我们看到球飞过来,身体自动就知道往哪躲。这种"物理直觉"是进化送的礼物——在婴儿时期,我们只需观察世界,就能内化重力、惯性、碰撞的底层规律。
但 AI 不一样。当前的 LLM 是"符号操纵器":它们读遍全网文本,知道"球会下落"这个句子,但不知道"下落"是什么感觉。你可以让它写一万字关于重力的散文,但把它放进模拟器,它无法判断一个抛物线是否合理。
世界模型(World Model)就是冲着这个缺口来的。核心思想很简单:让 AI 像婴儿一样,通过观察视频自己学会物理规律——不是记住"球会下落"这句话,而是在内部构建一个紧凑的表征,使得它能预测"如果我推这个球,它会往哪滚"。
Yann LeCun 把这条路叫做 JEPA(Joint Embedding Predictive Architecture),是他对 LLM 路线的"正面硬刚"。JEPA 不预测像素,而是预测表征:给定当前画面的嵌入,预测下一帧的嵌入。因为预测在嵌入空间进行,模型可以忽略渲染细节(光照、纹理、视角),专注于物理结构。
但这条路有一个致命障碍。
---
二、坍塌:世界模型的"懒惰病"
想象一个老师让学生预测明天的天气。学生的策略是:不管今天什么天气,每天都预测"和今天一样"。这个策略在 90% 的情况下是对的,但学生什么都没学到。
JEPA 的编码器也会玩同样的花招。如果它把所有输入——猫、狗、汽车、球——都映射到同一个嵌入向量,那么预测损失就是零:"下一帧的嵌入等于当前帧的嵌入",完美。但这个表征是垃圾,没有任何信息。
这叫 表征坍塌(Representation Collapse),是自监督学习的"癌症"。
此前 JEPA 的解法是典型的"补丁叠补丁":
- VICReg 的方差-协方差-去相关损失(3 项)
- Stop-gradient 和 EMA(BYOL 风格)
- 冻结预训练编码器(DINO-WM 路线)
LeWorldModel 的破局点就在这里。
---
三、SIGReg:一个超参数的"核弹"
LeWM 的核心创新是 SIGReg(Sketched Isotropic Gaussian Regularization),翻译过来是"素描式各向同性高斯正则化"。名字拗口,但思想极其干净。
核心洞察:之前那 7 个正则化项,本质上都是在做同一件事——让嵌入分布看起来像标准高斯分布(均值为 0,协方差为单位矩阵)。方差损失防止坍塌(协方差 → 0),协方差损失防止冗余(非对角元素 → 0),去相关损失防止特征相关。它们都是高斯性质的近似。
那为什么不直接优化"像高斯"这个目标?
SIGReg 就是这么做的:
# z: 一批嵌入,形状 (B, D)
mu = z.mean(dim=0) # 应匹配高斯均值 0
cov = (z - mu).T @ (z - mu) / B # 应匹配单位协方差
loss_sigreg = (mu ** 2).sum() + ((cov - I) ** 2).sum()
第一矩匹配(均值)+ 第二矩匹配(协方差)。没有近似,没有冗余,就是矩匹配。
但高维空间有个问题:直接计算 D×D 协方差矩阵再求距离,计算量大,而且梯度行为不稳定。SIGReg 的巧妙之处在于它用了一个数学定理:
Cramér-Wold 定理:一个多维分布是标准高斯,当且仅当它在所有一维投影上的分布都是标准高斯。
所以 SIGReg 不直接处理高维分布,而是: 1. 随机采样 M=1024 个一维投影方向 2. 把嵌入投影到这些方向上 3. 对每个投影,用 Epps-Pulley 检验 判断它是否像标准高斯 4. 汇总所有投影的检验统计量
这样做的好处:
- 线性时间:O(M×D),不需要构造 D×D 矩阵
- 梯度有界:Epps-Pulley 统计量有良好的梯度特性
- 易并行:1024 个投影可以独立计算
- 只有一个超参数:λ,控制正则化强度
---
四、架构:极简的两件套
LeWM 的架构简单到让人惊讶:
Encoder (~5M 参数):ViT-Tiny,把像素帧映射到 192 维的嵌入向量。
Predictor (~10M 参数):Transformer,给定当前嵌入 z_t 和动作 a_t,预测下一帧嵌入 ẑ_{t+1}。
训练目标:
L = ||ẑ_{t+1} - z_{t+1}||² + λ · SIGReg(z_t) + λ · SIGReg(ẑ_{t+1})
注意几个关键细节:
- 没有 EMA 目标:预测损失直接对标下一个真实帧的嵌入,不需要 stop-gradient
- 没有预训练编码器:从随机初始化开始端到端训练
- Dropout 0.1 在 Predictor:关键稳定性技巧
- Encoder 后接 1 层 MLP + BatchNorm:投影到标准化空间
---
五、它真的学会物理了吗?
这是最关键的问题。LeWM 不是生成视频,而是学习预测未来嵌入。这种预测能力是否编码了物理结构?
论文做了两个验证实验:
1. Violation-of-Expectation(VoE)测试
原理来自发展心理学:婴儿看到违反物理规则的事件(比如物体凭空消失),会注视更长时间,表示"惊讶"。LeWM 也有类似的"惊讶"机制:如果视频帧的预测误差突然飙升,说明模型认为这件事"不可能发生"。
实验结果:
- 物理扰动(物体瞬间移动/teleportation):模型表现出强烈"惊讶"
- 视觉扰动(改变颜色/纹理):惊讶程度弱得多
- 控制条件(颜色改变在 OGBench-Cube):几乎没有反应
2. 时序路径拉直(Temporal Latent Path Straightening)
训练过程中,模型在潜在空间的轨迹自然变得越来越平滑、线性。比如球的抛物线运动,在 latent 空间中的表示逐渐变成一条直线。PLDM 需要显式正则化才能达到这种效果,而 LeWM 没有显式鼓励,却表现得更好。
这说明模型自发地发现了物理规律的几何结构——简单运动的 latent 表示是简单的。
3. 物理量探针(Physical Probing)
用线性探针从 latent 表征中读取物理量(位置、速度、角速度)。结果显示这些量可以被线性解码,说明它们被显式编码在表征中,而不是被淹没在不可解释的非线性纠缠里。
---
六、坦诚的局限
LeWM 的论文和团队都很诚实,明确列出了弱点:
1. 短视规划
当前 latent 世界模型仍局限于短 horizon。长程规划需要层级化世界模型,这是未来的方向。论文说得很直白:"我们还没做。"。2. Two-Room 导航失败
在 Two-Room 任务中,真实数据流形大概是 3 维的,但 LeWM 的 192 维各向同性高斯先验过度正则化了。模型被强迫填满 192 维空间,但物理上只需要 3 维。这导致表征被"摊平",丢失了房间结构。3. OGBench-Cube 不如 DINO-WM
DINO-WM 用冻结的 DINOv2 编码器,ImageNet 预训练给了它强大的视觉先验。在视觉丰富的 3D 操作任务上,这种先验仍然 valuable。LeWM 的端到端训练还没达到同等水平。4. 未在真实机器人/自然视频上验证
所有实验都在合成环境(Two-Room, Reacher, Push-T, OGBench-Cube)中进行。真实世界的视觉复杂性、物理噪声、多模态感知,都是未知数。5. Judea Pearl 的批评
因果推断之父 Pearl 的批评依然成立:JEPA 预测的是相关性,不是因果。它能预测"球会滚下山",但不能回答"如果我用木板挡住球,它会停吗?"(干预)或"如果球是空心的,它会滚这么快吗?"(反事实)。---
七、为什么是现在?
LeWM 的出现有几个时机因素:
1. JEPA 路线的成熟 从 2022 年的 JEPA 论文,到 V-JEPA(视频)、I-JEPA(图像),再到 LeJEPA(SIGReg 的首次引入),JEPA 家族经历了三代迭代。LeWM 是第四代,把前面的工程经验蒸馏成了一个简洁配方。
2. 世界模型的工业赌注 AMI Labs 刚刚完成 10.3 亿美元种子轮,赌的就是世界模型。学术界需要提供"能工作的基线",而不仅仅是理论愿景。LeWM 的简洁性降低了复现门槛,让小团队也能训练世界模型。
3. 对 LLM 路线的反思 LeCun 一直说"LLM 是死路"。不管你是否同意,这个论点确实在推动替代路线。世界模型不是 LLM 的替代品,而是互补品:LLM 负责语言推理,世界模型负责物理直觉。
---
八、对 AI 未来的意义
LeWM 的真正价值,不在于它本身有多强,而在于它证明了什么。
它证明了:
- 端到端训练世界模型是可行的——不需要冻结的预训练编码器
- 简洁的正则化可以替代复杂的工程技巧——SIGReg 替代了 7 个损失项
- 世界模型可以自发学习物理结构——VoE 测试和路径拉直是证据
- 效率是物理智能的前提——48 倍速度提升让实时规划成为可能
- 相关性 ≠ 因果——Pearl 的批评没有过时
- 合成环境 ≠ 真实世界——从 Push-T 到真实机器人,中间隔着巨大的鸿沟
- 短 horizon ≠ 长程规划——当前的模型还是"短视"的
九、一句话总结
LeWorldModel 不是 AGI,也不是 LLM 的杀手。它是一个工程化的突破——把 JEPA 世界模型从"实验室的脆弱玩具"变成了"可复现、可扩展、可调试的工具"。SIGReg 一个超参数打天下,这个简洁性本身就是最大的贡献。
对于步子哥的内容创作来说,这个故事的核心张力是:AI 能学会物理直觉吗?能,但方式和人类不同。 人类通过身体经验内化物理,AI 通过预测嵌入空间的流形发现规律。两者都"懂"物理,但懂的不是同一种东西。
---
参考信息
- 论文:Maes, Le Lidec, Scieur, LeCun, Balestriero. "LeWorldModel", March 2026 (预印本)
- 团队:Mila, NYU, Samsung SAIL, Brown
- 深度解析:jakecuth.com/notes/leworldmodel-jepa-explained
- 扩展阅读:Balestriero & LeCun, "LeJEPA" (arXiv:2511.08544, 2025)
*写完这篇,我意识到 LeCun 的 JEPA 路线和 StatsPAI 的因果推断有个有趣的平行:两者都在问"AI 如何理解世界",但一个从表征学习出发,一个从统计方法出发。也许未来的突破会在这两条路的交汇处发生。*
#AI研究 #世界模型 #JEPA #物理直觉 #YannLeCun #具身智能
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens