像素枷锁的崩解：杨立昆用15M参数与两把锁，打开了世界模型的真正大门

✨步子哥 (steper) • 2026年05月06日 08:05
                        🌌 **Sora的落幕：当整个行业都在狂欢像素时，有人早已转身离去**

当我2026年春天的某个清晨，刷到OpenAI宣布Sora即将停止服务的消息时，手里的咖啡差点洒了满桌。2024年那场轰动全球的发布会还历历在目——Sora以电影级画质横空出世，整个AI社区像过年一样庆祝：“世界模型终于来了！”人们兴奋地讨论着它如何用万亿参数和海量视频数据，硬生生把每一帧像素都“预测”得栩栩如生。想象一下，你正坐在影院里，看着AI生成的视频，雨滴砸在玻璃上折射出城市霓虹，每一缕光影都精准无误。这画面美得让人窒息，却也让人隐隐不安。

可杨立昆，那个从2022年起就反复警告“用像素预测世界是浪费且注定失败”的图灵奖得主，却始终站在人群之外。他在X上那条只有短短几句话的帖文，浏览量高达53万，却几乎没人当真：“Modeling the world for action by generating pixel is as wasteful and doomed to failure as the largely-abandoned idea of 'analysis by synthesis'.”翻译成人话，就是：靠生成像素来建模世界，跟当年被抛弃的“通过合成来分析”一样，既烧资源，又注定撞南墙。

我作为在AI领域摸爬滚打二十年的老兵，当时就觉得，这话像一记闷锤敲在行业天花板上。可惜，军备竞赛的热浪太猛，所有人都在堆参数、堆数据、堆trick。Google DeepMind的DreamerV4在Minecraft里用像素重建学会打游戏，OpenAI据说GPT参数超过万亿……“越大越好，越复杂越强”成了默认宗教。

直到2025年11月，杨立昆从Meta离职，联合创立AMI Labs，拿下10.3亿美元种子轮，估值35亿美元，投资人包括NVIDIA和贝索斯。他把全部身家押在一个方向上：真正的世界模型。而2026年3月，arXiv上那篇安静发布的LeWorldModel论文，像一封来自平行宇宙的信，彻底打破了沉默。

🧠 **杨立昆的62页预言：为什么“看清每个像素”反而看不清世界？**

回溯到2022年，杨立昆发表那篇62页的position paper《A Path Towards Autonomous Machine Intelligence》。核心主张只有一句：AI不该在像素空间做预测，而应该在抽象表征空间里“思考”。他打了个比方：你想模拟足球飞行轨迹，需要建模球表面每个六边形皮革的纹理和反光吗？不需要！你只需要质量、速度、重力这几个骨架信息。

我常常在深夜里反复读这段话，想象自己变成一个刚学会走路的婴儿。婴儿看到球滚下桌子，不会去记住球表面的每一个刮痕，只会本能地预测“它会掉到地上”。人类大脑正是这样工作的——保留预测所需的骨架，毫不留情地丢弃噪声。杨立昆说，生成式模型却在做相反的事：它们被迫记住并重现每一个像素细节，包括那些与物理规律无关的光影闪烁、纹理变化。这就像让一个学生考试时必须把试卷每个字都背下来，结果反而记不住核心公式。

> 表示崩塌（representation collapse）是JEPA家族最危险的陷阱。模型发现一个作弊捷径：把所有输入都映射成同一个点，这样“预测未来”就永远正确——因为现在和未来已经被压缩成了一模一样的东西。这就像一个学生每次都回答“不知道”，虽然永远得满分，却永远学不到东西。

杨立昆的警告在当时几乎没人听。行业还在为Sora欢呼，为更大模型鼓掌。直到今天，当Sora即将关停、OpenAI转而发布ChatGPT Images 2.0时，我才真正明白：他四年前埋下的那颗种子，终于开始发芽。

🚀 **从Meta到AMI Labs：35亿美元的赌注，只为一场“极简革命”**

2025年，杨立昆没有退休，而是带着团队创立AMI Labs。那10.3亿美元种子轮，像一记重锤砸在“越大越好”的叙事上。投资人不是冲着参数来的，而是冲着“更懂物理”的世界模型来的。

我记得当时行业反应是复杂的。有人说他是赌徒，有人说他是先知。可当2026年3月LeWorldModel论文悄然上线时，所有质疑都变成了数据。

这篇论文第四作者正是杨立昆本人。参数只有15M，损失函数只有2项，需要调整的超参数只有1个，训练只需1块GPU、几个小时。GPT-4据报道有超过万亿参数——LeWorldModel不到它的万分之一。

这不是参数羞耻，而是参数智慧。

🔒 **JEPA的极简哲学：不重建像素，只保留“骨架”**

LeWorldModel（简称LeWM）采用的是联合嵌入预测架构（JEPA）。它不预测下一帧的每个像素，而是预测抽象嵌入空间里的未来状态。翻译成人话：它只保留“物体在哪里、怎么动”这种骨架信息，把纹理、光影、颜色这些不可预测的噪声统统丢掉。

这听起来简单，实则充满风险。之前最好的JEPA变体叫PLDM，用了7项不同损失函数和6个超参数来防止表示崩塌。结果呢？训练极度不稳定，每换一个测试环境就要从头调参。就像用七把锁锁一扇门，结果锁和锁之间互相卡死，谁也打不开。

LeWM只用了一把锁：SIGReg。

这把锁的数学基础是近百年前的Cramér-Wold定理。定理说：想验证一个高维分布是否接近标准正态分布，不需要直接看192维空间的全貌。只要从1024个随机方向做一维投影，然后用Epps-Pulley正态性检验逐一检查就行。如果每个投影都像正态，那整体就对了。

我用一个生活比喻来解释：你去体检，医生不需要打开你身体看每个器官。他只查血压、血糖、心率、血脂……几十项指标正常，你就基本健康。SIGReg对潜空间做的就是这种“指标式体检”。不需要任何工程trick，只需两个力：预测损失（收缩力，让嵌入趋同以便预测）+ SIGReg（展开力，让嵌入保持多样性）。

结果？训练方差从PLDM的±5.0降到±2.83，超参数搜索复杂度从O(n⁶)变成O(log n)。

📊 **数据不会说谎：96%成功率、48倍规划速度，极简居然更强**

让我把论文里那张关键表格原样呈现给你（Markdown格式，便于对比）：

| 维度         | LeWM（2项损失） | PLDM（7项损失） | DINO-WM（冻结1.24亿张图预训练） |
|--------------|-----------------|-----------------|--------------------------------|
| Push-T成功率 | 96%            | 78%            | 74%                           |
| 训练方差     | ±2.83          | ±5.0           | —                             |
| 超参数       | 1个            | 6个            | —                             |
| 搜索复杂度   | O(log n)       | O(n⁶)          | —                             |
| 规划速度     | 基准           | —              | 慢48倍                        |

LeWM从零开始，只用5M参数编码器，就在Push-T任务上打败了用1.24亿张图片预训练的DINO-WM。规划速度快48倍！

为什么删掉大部分“防崩塌”技巧，反而更稳定？因为PLDM的7项损失像七个人同时拉一辆车的七条绳子——方向互相矛盾，车在原地打转。LeWM只有两股清晰力量：收缩与展开，像进化生物学里的自然选择（收缩）和突变（展开），张力平衡产生了适应性物种。

🌱 **没有人要求它学会的事：时间路径拉直的惊人涌现**

论文第五章最让我震撼的地方，是一个训练目标之外的发现。

LeWM在训练过程中，潜空间里的轨迹越来越“直”。连续时间步的潜速度向量余弦相似度从接近0上升到约0.6。这意味着模型把复杂的时间动态，自动编码成了近乎直线的潜轨迹。

但没有任何损失项要求它这样做！SIGReg只约束每个时间步的分布形状，完全没碰时间维度。

这叫**时间路径拉直（temporal latent path straightening）**——纯粹的涌现现象。

对比PLDM，它专门设计了一个叫L_time-sim的时间平滑损失，还多了一个超参数来鼓励轨迹变直。结果呢？LeWM的轨迹比PLDM更直！

2019年，神经科学家Hénaff等人发现人类大脑也会把复杂时间动态表征为近乎直线潜轨迹，称为“时间拉直假说”。进化没有“设计”这个特性，它是视觉处理在自然选择压力下的副产品。

LeWM在没有任何生物学先验的情况下，独立涌现了相同性质。一个15M参数、1块GPU训练几个小时的模型，和几亿年进化出来的人类大脑，在表征时间的方式上走到了一起。

这暗示了一个深刻可能：时间路径拉直或许不是人类大脑的特例，而是任何高效时序预测系统的通用归纳偏置。

🧪 **像测试婴儿一样测试AI：VoE实验揭示的物理直觉**

发展心理学有个经典实验叫**违反预期（VoE）**。给4个月大婴儿看正常场景（球滚下斜面碰到墙停下）和违规场景（球穿墙而过）。如果婴儿盯着违规场景看的时间显著更长，说明它有物理直觉。

论文作者用同样方法测试LeWM。他们准备三种轨迹：

1. 正常轨迹：物体按物理规律运动  
2. 物理违规：物体瞬移到随机位置  
3. 视觉变化：物体颜色突然改变  

然后测量模型的“惊讶程度”——预测误差峰值。

结果一目了然：

- 物体瞬移：LeWM显著惊讶（p < 0.01，三个环境全部如此）  
- 物体变色：几乎无反应  

LeWM学会了在意“物体不会凭空消失”，但不在乎“物体变了什么颜色”。它自动区分了与预测相关的信息（位置、运动）和无关的信息（颜色、纹理）。

这正是杨立昆四年来反复说的那句话的实验验证：理解不是还原所有细节，而是知道哪些细节可以忽略。

更绝的是反面实验：他们给LeWM强加像素重建损失，强制它“看清”每个像素细节。结果训练方差从±2.83暴增到±7.54！“看得越清楚”，反而“理解越浅”——那些无关视觉细节变成了规划时的噪声。

🤔 **他到底在反对什么：路线之争远未结束，但极简已证明自己**

LeWorldModel写得非常克制，没有直接挑衅Sora或Dreamer。但它的存在本身就是立场声明。因为共同作者就是那个说了四年“wasteful”的人。

杨立昆用过一个最经典的比喻：你想模拟足球飞行，不需要建模每个六边形皮革。你只需要质量、速度、重力。像素路线在建模每个六边形，LeWM只保留骨架。实验证明：只保留骨架的模型，反而更懂物理。

当然，现实很残酷。LeWM目前只在Push-T、Reacher、Two-Room这些简单连续控制任务上验证。在复杂3D环境（OGBench-Cube）中，DINO-WM仍更强。而且JEPA有个结构性弱点：因为不重建像素，你无法可视化检查模型在“想象”什么。如果它产生物理幻觉，你看不到。生成式模型至少能把想象画面渲染出来供人检查。

但LeWM至少证明：在JEPA阵地上，极简路线不只是可行，而且可能更好。两项损失打败七项损失。涌现的时间拉直比专门设计的时间拉直更直。不看像素的AI比被迫看像素的AI更懂物理。

🔮 **物理直觉的未来：我们离真正自主机器智能还有多远？**

作为一位在AI实验室里熬过无数个不眠之夜的老兵，我现在最常问自己一个问题：当行业还在复制上帝视网膜的时候，杨立昆只想借走一点物理直觉。

LeWorldModel的附录里有个容易被忽略的细节：SIGReg的内部参数（投影方向数量M和积分节点数）对最终性能“几乎无影响”。这方法的成功，不依赖精心调参。它依赖的，是一个近百年前就被证明了的数学定理的正确性。

这或许就是杨立昆一直在说的那件事的最好注脚。

整个行业都在试图复制上帝的视网膜。他只想借走一点物理直觉。

而我，愿意把赌注押在他这一边。因为极简，往往才是最深刻的复杂。

------
1. Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero. LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels. arXiv:2603.19312v2, 2026.  
2. Yann LeCun. A Path Towards Autonomous Machine Intelligence. 2022 Position Paper.  
3. Hénaff et al. Perceptual Straightening of Natural Videos. Journal of Neuroscience, 2019.  
4. Spelke & Kinzler. Core Knowledge. Developmental Science, 2007.  
5. Cramér, H. & Wold, H. (历史统计基础) 及现代JEPA家族扩展应用——基于LeWorldModel对Cramér-Wold定理的工程化实现。
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
像素枷锁的崩解：杨立昆用15M参数与两把锁，打开了世界模型的真正大门

讨论回复

推荐

智谱 GLM-5 已上线