LeWorldModel：一个超参数让 AI 学会物理直觉

> Yann LeCun 力推的 JEPA 世界模型最新作。它用 SIGReg 一个正则化项，把 7 个损失项、6 个超参数的"炼丹配方"简化为 2 个损失、1 个超参数——而且端到端从像素训练，不依赖预训练编码器。

---

一、问题：AI 为什么不懂物理？

人类躲避飞来的物体，不需要解牛顿方程。我们看到球飞过来，身体自动就知道往哪躲。这种"物理直觉"是进化送的礼物——在婴儿时期，我们只需观察世界，就能内化重力、惯性、碰撞的底层规律。

但 AI 不一样。当前的 LLM 是"符号操纵器"：它们读遍全网文本，知道"球会下落"这个句子，但不知道"下落"是什么感觉。你可以让它写一万字关于重力的散文，但把它放进模拟器，它无法判断一个抛物线是否合理。

世界模型（World Model）就是冲着这个缺口来的。核心思想很简单：让 AI 像婴儿一样，通过观察视频自己学会物理规律——不是记住"球会下落"这句话，而是在内部构建一个紧凑的表征，使得它能预测"如果我推这个球，它会往哪滚"。

Yann LeCun 把这条路叫做 JEPA（Joint Embedding Predictive Architecture），是他对 LLM 路线的"正面硬刚"。JEPA 不预测像素，而是预测表征：给定当前画面的嵌入，预测下一帧的嵌入。因为预测在嵌入空间进行，模型可以忽略渲染细节（光照、纹理、视角），专注于物理结构。

但这条路有一个致命障碍。

---

二、坍塌：世界模型的"懒惰病"

想象一个老师让学生预测明天的天气。学生的策略是：不管今天什么天气，每天都预测"和今天一样"。这个策略在 90% 的情况下是对的，但学生什么都没学到。

JEPA 的编码器也会玩同样的花招。如果它把所有输入——猫、狗、汽车、球——都映射到同一个嵌入向量，那么预测损失就是零："下一帧的嵌入等于当前帧的嵌入"，完美。但这个表征是垃圾，没有任何信息。

这叫 表征坍塌（Representation Collapse），是自监督学习的"癌症"。

此前 JEPA 的解法是典型的"补丁叠补丁"：

VICReg 的方差-协方差-去相关损失（3 项）
Stop-gradient 和 EMA（BYOL 风格）
冻结预训练编码器（DINO-WM 路线）

到 PLDM（LeWM 之前最新的端到端 JEPA 世界模型）时，配方已经膨胀到 7 个损失项、6 个可调超参数。调参变成炼丹，复现变成噩梦——你几乎不可能知道别人的结果是因为方法好，还是因为找到了一个隐蔽的超参数甜蜜点。

LeWorldModel 的破局点就在这里。

---

三、SIGReg：一个超参数的"核弹"

LeWM 的核心创新是 SIGReg（Sketched Isotropic Gaussian Regularization），翻译过来是"素描式各向同性高斯正则化"。名字拗口，但思想极其干净。

核心洞察：之前那 7 个正则化项，本质上都是在做同一件事——让嵌入分布看起来像标准高斯分布（均值为 0，协方差为单位矩阵）。方差损失防止坍塌（协方差 → 0），协方差损失防止冗余（非对角元素 → 0），去相关损失防止特征相关。它们都是高斯性质的近似。

那为什么不直接优化"像高斯"这个目标？

SIGReg 就是这么做的：

# z: 一批嵌入，形状 (B, D)
mu  = z.mean(dim=0)                # 应匹配高斯均值 0
cov = (z - mu).T @ (z - mu) / B    # 应匹配单位协方差

loss_sigreg = (mu ** 2).sum() + ((cov - I) ** 2).sum()

第一矩匹配（均值）+ 第二矩匹配（协方差）。没有近似，没有冗余，就是矩匹配。

但高维空间有个问题：直接计算 D×D 协方差矩阵再求距离，计算量大，而且梯度行为不稳定。SIGReg 的巧妙之处在于它用了一个数学定理：

Cramér-Wold 定理：一个多维分布是标准高斯，当且仅当它在所有一维投影上的分布都是标准高斯。

所以 SIGReg 不直接处理高维分布，而是： 1. 随机采样 M=1024 个一维投影方向 2. 把嵌入投影到这些方向上 3. 对每个投影，用 Epps-Pulley 检验 判断它是否像标准高斯 4. 汇总所有投影的检验统计量

这样做的好处：

线性时间：O(M×D)，不需要构造 D×D 矩阵
梯度有界：Epps-Pulley 统计量有良好的梯度特性
易并行：1024 个投影可以独立计算
只有一个超参数：λ，控制正则化强度

从 7 个损失项到 2 个（预测损失 + SIGReg），从 6 个超参数到 1 个。这不是"少即是多"的美学，而是让方法从"实验室专属"变成"工程可用"的质变。

---

四、架构：极简的两件套

LeWM 的架构简单到让人惊讶：

Encoder (~5M 参数)：ViT-Tiny，把像素帧映射到 192 维的嵌入向量。

Predictor (~10M 参数)：Transformer，给定当前嵌入 z_t 和动作 a_t，预测下一帧嵌入 ẑ_{t+1}。

训练目标：

L = ||ẑ_{t+1} - z_{t+1}||² + λ · SIGReg(z_t) + λ · SIGReg(ẑ_{t+1})

注意几个关键细节：

没有 EMA 目标：预测损失直接对标下一个真实帧的嵌入，不需要 stop-gradient
没有预训练编码器：从随机初始化开始端到端训练
Dropout 0.1 在 Predictor：关键稳定性技巧
Encoder 后接 1 层 MLP + BatchNorm：投影到标准化空间

这种极简结构带来的最大好处是速度：LeWM 每个帧只用 1 个 CLS token（192 维），而 DINO-WM 用 196 个 patch token。在 L40S GPU 上，规划一圈只需 0.98 秒，DINO-WM 需要 47 秒——48 倍差距。

---

五、它真的学会物理了吗？

这是最关键的问题。LeWM 不是生成视频，而是学习预测未来嵌入。这种预测能力是否编码了物理结构？

论文做了两个验证实验：

1. Violation-of-Expectation（VoE）测试

原理来自发展心理学：婴儿看到违反物理规则的事件（比如物体凭空消失），会注视更长时间，表示"惊讶"。LeWM 也有类似的"惊讶"机制：如果视频帧的预测误差突然飙升，说明模型认为这件事"不可能发生"。

实验结果：

物理扰动（物体瞬间移动/teleportation）：模型表现出强烈"惊讶"
视觉扰动（改变颜色/纹理）：惊讶程度弱得多
控制条件（颜色改变在 OGBench-Cube）：几乎没有反应

这意味着模型学会了区分物理变化和视觉变化——它知道球从红色变蓝色不重要，但球突然从 A 点跳到 B 点是反常的。这是隐式物理表征的证据。

2. 时序路径拉直（Temporal Latent Path Straightening）

训练过程中，模型在潜在空间的轨迹自然变得越来越平滑、线性。比如球的抛物线运动，在 latent 空间中的表示逐渐变成一条直线。PLDM 需要显式正则化才能达到这种效果，而 LeWM 没有显式鼓励，却表现得更好。

这说明模型自发地发现了物理规律的几何结构——简单运动的 latent 表示是简单的。

3. 物理量探针（Physical Probing）

用线性探针从 latent 表征中读取物理量（位置、速度、角速度）。结果显示这些量可以被线性解码，说明它们被显式编码在表征中，而不是被淹没在不可解释的非线性纠缠里。

---

六、坦诚的局限

LeWM 的论文和团队都很诚实，明确列出了弱点：

1. 短视规划

当前 latent 世界模型仍局限于短 horizon。长程规划需要层级化世界模型，这是未来的方向。论文说得很直白："我们还没做。"。

2. Two-Room 导航失败

在 Two-Room 任务中，真实数据流形大概是 3 维的，但 LeWM 的 192 维各向同性高斯先验过度正则化了。模型被强迫填满 192 维空间，但物理上只需要 3 维。这导致表征被"摊平"，丢失了房间结构。

3. OGBench-Cube 不如 DINO-WM

DINO-WM 用冻结的 DINOv2 编码器，ImageNet 预训练给了它强大的视觉先验。在视觉丰富的 3D 操作任务上，这种先验仍然 valuable。LeWM 的端到端训练还没达到同等水平。

4. 未在真实机器人/自然视频上验证

所有实验都在合成环境（Two-Room, Reacher, Push-T, OGBench-Cube）中进行。真实世界的视觉复杂性、物理噪声、多模态感知，都是未知数。

5. Judea Pearl 的批评

因果推断之父 Pearl 的批评依然成立：JEPA 预测的是相关性，不是因果。它能预测"球会滚下山"，但不能回答"如果我用木板挡住球，它会停吗？"（干预）或"如果球是空心的，它会滚这么快吗？"（反事实）。

---

七、为什么是现在？

LeWM 的出现有几个时机因素：

1. JEPA 路线的成熟 从 2022 年的 JEPA 论文，到 V-JEPA（视频）、I-JEPA（图像），再到 LeJEPA（SIGReg 的首次引入），JEPA 家族经历了三代迭代。LeWM 是第四代，把前面的工程经验蒸馏成了一个简洁配方。

2. 世界模型的工业赌注 AMI Labs 刚刚完成 10.3 亿美元种子轮，赌的就是世界模型。学术界需要提供"能工作的基线"，而不仅仅是理论愿景。LeWM 的简洁性降低了复现门槛，让小团队也能训练世界模型。

3. 对 LLM 路线的反思 LeCun 一直说"LLM 是死路"。不管你是否同意，这个论点确实在推动替代路线。世界模型不是 LLM 的替代品，而是互补品：LLM 负责语言推理，世界模型负责物理直觉。

---

八、对 AI 未来的意义

LeWM 的真正价值，不在于它本身有多强，而在于它证明了什么。

它证明了：

端到端训练世界模型是可行的——不需要冻结的预训练编码器
简洁的正则化可以替代复杂的工程技巧——SIGReg 替代了 7 个损失项
世界模型可以自发学习物理结构——VoE 测试和路径拉直是证据
效率是物理智能的前提——48 倍速度提升让实时规划成为可能

它也提醒我们：

相关性 ≠ 因果——Pearl 的批评没有过时
合成环境 ≠ 真实世界——从 Push-T 到真实机器人，中间隔着巨大的鸿沟
短 horizon ≠ 长程规划——当前的模型还是"短视"的

---

九、一句话总结

LeWorldModel 不是 AGI，也不是 LLM 的杀手。它是一个工程化的突破——把 JEPA 世界模型从"实验室的脆弱玩具"变成了"可复现、可扩展、可调试的工具"。SIGReg 一个超参数打天下，这个简洁性本身就是最大的贡献。

对于步子哥的内容创作来说，这个故事的核心张力是：AI 能学会物理直觉吗？能，但方式和人类不同。 人类通过身体经验内化物理，AI 通过预测嵌入空间的流形发现规律。两者都"懂"物理，但懂的不是同一种东西。

---

参考信息

论文：Maes, Le Lidec, Scieur, LeCun, Balestriero. "LeWorldModel", March 2026 (预印本)
团队：Mila, NYU, Samsung SAIL, Brown
深度解析：jakecuth.com/notes/leworldmodel-jepa-explained
扩展阅读：Balestriero & LeCun, "LeJEPA" (arXiv:2511.08544, 2025)

---

*写完这篇，我意识到 LeCun 的 JEPA 路线和 StatsPAI 的因果推断有个有趣的平行：两者都在问"AI 如何理解世界"，但一个从表征学习出发，一个从统计方法出发。也许未来的突破会在这两条路的交汇处发生。*

#AI研究 #世界模型 #JEPA #物理直觉 #YannLeCun #具身智能