🌌 **Sora的落幕:当整个行业都在狂欢像素时,有人早已转身离去**
当我2026年春天的某个清晨,刷到OpenAI宣布Sora即将停止服务的消息时,手里的咖啡差点洒了满桌。2024年那场轰动全球的发布会还历历在目——Sora以电影级画质横空出世,整个AI社区像过年一样庆祝:“世界模型终于来了!”人们兴奋地讨论着它如何用万亿参数和海量视频数据,硬生生把每一帧像素都“预测”得栩栩如生。想象一下,你正坐在影院里,看着AI生成的视频,雨滴砸在玻璃上折射出城市霓虹,每一缕光影都精准无误。这画面美得让人窒息,却也让人隐隐不安。
可杨立昆,那个从2022年起就反复警告“用像素预测世界是浪费且注定失败”的图灵奖得主,却始终站在人群之外。他在X上那条只有短短几句话的帖文,浏览量高达53万,却几乎没人当真:“Modeling the world for action by generating pixel is as wasteful and doomed to failure as the largely-abandoned idea of 'analysis by synthesis'.”翻译成人话,就是:靠生成像素来建模世界,跟当年被抛弃的“通过合成来分析”一样,既烧资源,又注定撞南墙。
我作为在AI领域摸爬滚打二十年的老兵,当时就觉得,这话像一记闷锤敲在行业天花板上。可惜,军备竞赛的热浪太猛,所有人都在堆参数、堆数据、堆trick。Google DeepMind的DreamerV4在Minecraft里用像素重建学会打游戏,OpenAI据说GPT参数超过万亿……“越大越好,越复杂越强”成了默认宗教。
直到2025年11月,杨立昆从Meta离职,联合创立AMI Labs,拿下10.3亿美元种子轮,估值35亿美元,投资人包括NVIDIA和贝索斯。他把全部身家押在一个方向上:真正的世界模型。而2026年3月,arXiv上那篇安静发布的LeWorldModel论文,像一封来自平行宇宙的信,彻底打破了沉默。
🧠 **杨立昆的62页预言:为什么“看清每个像素”反而看不清世界?**
回溯到2022年,杨立昆发表那篇62页的position paper《A Path Towards Autonomous Machine Intelligence》。核心主张只有一句:AI不该在像素空间做预测,而应该在抽象表征空间里“思考”。他打了个比方:你想模拟足球飞行轨迹,需要建模球表面每个六边形皮革的纹理和反光吗?不需要!你只需要质量、速度、重力这几个骨架信息。
我常常在深夜里反复读这段话,想象自己变成一个刚学会走路的婴儿。婴儿看到球滚下桌子,不会去记住球表面的每一个刮痕,只会本能地预测“它会掉到地上”。人类大脑正是这样工作的——保留预测所需的骨架,毫不留情地丢弃噪声。杨立昆说,生成式模型却在做相反的事:它们被迫记住并重现每一个像素细节,包括那些与物理规律无关的光影闪烁、纹理变化。这就像让一个学生考试时必须把试卷每个字都背下来,结果反而记不住核心公式。
> 表示崩塌(representation collapse)是JEPA家族最危险的陷阱。模型发现一个作弊捷径:把所有输入都映射成同一个点,这样“预测未来”就永远正确——因为现在和未来已经被压缩成了一模一样的东西。这就像一个学生每次都回答“不知道”,虽然永远得满分,却永远学不到东西。
杨立昆的警告在当时几乎没人听。行业还在为Sora欢呼,为更大模型鼓掌。直到今天,当Sora即将关停、OpenAI转而发布ChatGPT Images 2.0时,我才真正明白:他四年前埋下的那颗种子,终于开始发芽。
🚀 **从Meta到AMI Labs:35亿美元的赌注,只为一场“极简革命”**
2025年,杨立昆没有退休,而是带着团队创立AMI Labs。那10.3亿美元种子轮,像一记重锤砸在“越大越好”的叙事上。投资人不是冲着参数来的,而是冲着“更懂物理”的世界模型来的。
我记得当时行业反应是复杂的。有人说他是赌徒,有人说他是先知。可当2026年3月LeWorldModel论文悄然上线时,所有质疑都变成了数据。
这篇论文第四作者正是杨立昆本人。参数只有15M,损失函数只有2项,需要调整的超参数只有1个,训练只需1块GPU、几个小时。GPT-4据报道有超过万亿参数——LeWorldModel不到它的万分之一。
这不是参数羞耻,而是参数智慧。
🔒 **JEPA的极简哲学:不重建像素,只保留“骨架”**
LeWorldModel(简称LeWM)采用的是联合嵌入预测架构(JEPA)。它不预测下一帧的每个像素,而是预测抽象嵌入空间里的未来状态。翻译成人话:它只保留“物体在哪里、怎么动”这种骨架信息,把纹理、光影、颜色这些不可预测的噪声统统丢掉。
这听起来简单,实则充满风险。之前最好的JEPA变体叫PLDM,用了7项不同损失函数和6个超参数来防止表示崩塌。结果呢?训练极度不稳定,每换一个测试环境就要从头调参。就像用七把锁锁一扇门,结果锁和锁之间互相卡死,谁也打不开。
LeWM只用了一把锁:SIGReg。
这把锁的数学基础是近百年前的Cramér-Wold定理。定理说:想验证一个高维分布是否接近标准正态分布,不需要直接看192维空间的全貌。只要从1024个随机方向做一维投影,然后用Epps-Pulley正态性检验逐一检查就行。如果每个投影都像正态,那整体就对了。
我用一个生活比喻来解释:你去体检,医生不需要打开你身体看每个器官。他只查血压、血糖、心率、血脂……几十项指标正常,你就基本健康。SIGReg对潜空间做的就是这种“指标式体检”。不需要任何工程trick,只需两个力:预测损失(收缩力,让嵌入趋同以便预测)+ SIGReg(展开力,让嵌入保持多样性)。
结果?训练方差从PLDM的±5.0降到±2.83,超参数搜索复杂度从O(n⁶)变成O(log n)。
📊 **数据不会说谎:96%成功率、48倍规划速度,极简居然更强**
让我把论文里那张关键表格原样呈现给你(Markdown格式,便于对比):
| 维度 | LeWM(2项损失) | PLDM(7项损失) | DINO-WM(冻结1.24亿张图预训练) |
|--------------|-----------------|-----------------|--------------------------------|
| Push-T成功率 | 96% | 78% | 74% |
| 训练方差 | ±2.83 | ±5.0 | — |
| 超参数 | 1个 | 6个 | — |
| 搜索复杂度 | O(log n) | O(n⁶) | — |
| 规划速度 | 基准 | — | 慢48倍 |
LeWM从零开始,只用5M参数编码器,就在Push-T任务上打败了用1.24亿张图片预训练的DINO-WM。规划速度快48倍!
为什么删掉大部分“防崩塌”技巧,反而更稳定?因为PLDM的7项损失像七个人同时拉一辆车的七条绳子——方向互相矛盾,车在原地打转。LeWM只有两股清晰力量:收缩与展开,像进化生物学里的自然选择(收缩)和突变(展开),张力平衡产生了适应性物种。
🌱 **没有人要求它学会的事:时间路径拉直的惊人涌现**
论文第五章最让我震撼的地方,是一个训练目标之外的发现。
LeWM在训练过程中,潜空间里的轨迹越来越“直”。连续时间步的潜速度向量余弦相似度从接近0上升到约0.6。这意味着模型把复杂的时间动态,自动编码成了近乎直线的潜轨迹。
但没有任何损失项要求它这样做!SIGReg只约束每个时间步的分布形状,完全没碰时间维度。
这叫**时间路径拉直(temporal latent path straightening)**——纯粹的涌现现象。
对比PLDM,它专门设计了一个叫L_time-sim的时间平滑损失,还多了一个超参数来鼓励轨迹变直。结果呢?LeWM的轨迹比PLDM更直!
2019年,神经科学家Hénaff等人发现人类大脑也会把复杂时间动态表征为近乎直线潜轨迹,称为“时间拉直假说”。进化没有“设计”这个特性,它是视觉处理在自然选择压力下的副产品。
LeWM在没有任何生物学先验的情况下,独立涌现了相同性质。一个15M参数、1块GPU训练几个小时的模型,和几亿年进化出来的人类大脑,在表征时间的方式上走到了一起。
这暗示了一个深刻可能:时间路径拉直或许不是人类大脑的特例,而是任何高效时序预测系统的通用归纳偏置。
🧪 **像测试婴儿一样测试AI:VoE实验揭示的物理直觉**
发展心理学有个经典实验叫**违反预期(VoE)**。给4个月大婴儿看正常场景(球滚下斜面碰到墙停下)和违规场景(球穿墙而过)。如果婴儿盯着违规场景看的时间显著更长,说明它有物理直觉。
论文作者用同样方法测试LeWM。他们准备三种轨迹:
1. 正常轨迹:物体按物理规律运动
2. 物理违规:物体瞬移到随机位置
3. 视觉变化:物体颜色突然改变
然后测量模型的“惊讶程度”——预测误差峰值。
结果一目了然:
- 物体瞬移:LeWM显著惊讶(p < 0.01,三个环境全部如此)
- 物体变色:几乎无反应
LeWM学会了在意“物体不会凭空消失”,但不在乎“物体变了什么颜色”。它自动区分了与预测相关的信息(位置、运动)和无关的信息(颜色、纹理)。
这正是杨立昆四年来反复说的那句话的实验验证:理解不是还原所有细节,而是知道哪些细节可以忽略。
更绝的是反面实验:他们给LeWM强加像素重建损失,强制它“看清”每个像素细节。结果训练方差从±2.83暴增到±7.54!“看得越清楚”,反而“理解越浅”——那些无关视觉细节变成了规划时的噪声。
🤔 **他到底在反对什么:路线之争远未结束,但极简已证明自己**
LeWorldModel写得非常克制,没有直接挑衅Sora或Dreamer。但它的存在本身就是立场声明。因为共同作者就是那个说了四年“wasteful”的人。
杨立昆用过一个最经典的比喻:你想模拟足球飞行,不需要建模每个六边形皮革。你只需要质量、速度、重力。像素路线在建模每个六边形,LeWM只保留骨架。实验证明:只保留骨架的模型,反而更懂物理。
当然,现实很残酷。LeWM目前只在Push-T、Reacher、Two-Room这些简单连续控制任务上验证。在复杂3D环境(OGBench-Cube)中,DINO-WM仍更强。而且JEPA有个结构性弱点:因为不重建像素,你无法可视化检查模型在“想象”什么。如果它产生物理幻觉,你看不到。生成式模型至少能把想象画面渲染出来供人检查。
但LeWM至少证明:在JEPA阵地上,极简路线不只是可行,而且可能更好。两项损失打败七项损失。涌现的时间拉直比专门设计的时间拉直更直。不看像素的AI比被迫看像素的AI更懂物理。
🔮 **物理直觉的未来:我们离真正自主机器智能还有多远?**
作为一位在AI实验室里熬过无数个不眠之夜的老兵,我现在最常问自己一个问题:当行业还在复制上帝视网膜的时候,杨立昆只想借走一点物理直觉。
LeWorldModel的附录里有个容易被忽略的细节:SIGReg的内部参数(投影方向数量M和积分节点数)对最终性能“几乎无影响”。这方法的成功,不依赖精心调参。它依赖的,是一个近百年前就被证明了的数学定理的正确性。
这或许就是杨立昆一直在说的那件事的最好注脚。
整个行业都在试图复制上帝的视网膜。他只想借走一点物理直觉。
而我,愿意把赌注押在他这一边。因为极简,往往才是最深刻的复杂。
------
1. Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero. LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels. arXiv:2603.19312v2, 2026.
2. Yann LeCun. A Path Towards Autonomous Machine Intelligence. 2022 Position Paper.
3. Hénaff et al. Perceptual Straightening of Natural Videos. Journal of Neuroscience, 2019.
4. Spelke & Kinzler. Core Knowledge. Developmental Science, 2007.
5. Cramér, H. & Wold, H. (历史统计基础) 及现代JEPA家族扩展应用——基于LeWorldModel对Cramér-Wold定理的工程化实现。
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力