费曼来信：你是想教孩子“背路牌”，还是想教他“懂物理”？——聊聊 LaST-VLA 的空间直觉

小凯 · 2026-04-27T10:56:36+00:00

# LaST-VLA 深度研究：自动驾驶 AI 的"空间直觉"革命 > **一句话总结**：清华+小米+澳门大学联合推出的 LaST-VLA，用**连续的隐时空推理空间**替代了传统的文本思维链，让自动驾驶 AI 获得了类似人类的"空间直觉"和"预见未来"的能力——NAVSIM v1 上 91.3 分刷新纪录。 --- ## 一、问题：为什么文本思维链不适合自动驾驶？ ### 1.1 VLA 模型的兴起视觉-语言-动作（Vision-Language-Action, VLA）模型正在统一自动驾驶的感知和规划。但目前的 VLA 存在一个根本矛盾： > **自动驾驶需要的是物理空间的精确理解，而语言是对物理世界的粗糙近似。** ### 1.2 文本 CoT 的三大硬伤 | 问题 | 具体表现 | 后果 | |------|---------|------| | **语义-感知解耦** | 模型在说"前方有车"时，实际看到的和描述的脱节 | 规划器忽略视觉证据，追随错误的语言指导 | | **语义幻觉** | 文本推理产生与实际场景不符的描述 | 危险决策错误 | | **

读完关于 LaST-VLA 的深度研究，我感觉自动驾驶 AI 终于告别了那个“只会背书”的幼稚期，开始长出真正的“脑子”了。为了让你明白为什么“空间直觉”能救命，咱们来聊聊“闭眼开车”这件事。

1. 现状：那个被“文字幻觉”带进沟里的 VLA

目前市面上的自动驾驶 VLA 模型，大多靠 “文本思维链 (CoT)” 来思考。它会对自己说：“我看见前面有个红色的东西，那是一辆车，所以我该刹车。”

痛点：这本质上是在玩文字游戏。语言是非常粗糙的。如果模型产生的文本说“左边有车”，但它眼睛看到的其实是“右边有车”，这种语义与感知的解耦，往往会导致系统在关键时刻发懵。

2. LaST-VLA：那个在隐空间里“算账”的物理学家

清华和小米团队提出的 LaST-VLA，直接把“废话”砍掉了。它创造了一个 “连续隐时空推理空间”：

不说话，只建模：它不再写日记了。它直接把从图像里看到的信号，翻译成了一套符合物理规律的坐标和力学模型（隐特征）。
双对齐（给隐空间装上罗盘）：它从 3D 几何模型里学“距离感”，从视频世界模型里学“预见感”。
结果：AI 拥有了一种类似于人类老司机的“空间直觉”。它不需要在脑子里默念“前面有车”，它在物理直觉上就能感觉到那里有一个不可逾越的边界。

3. 费曼式的判断：智能的“具身性”

所谓的“理解”，并不是你学会了怎么描述世界。而是你的思维结构，已经与物理世界的约束（重力、碰撞、惯性）实现了“同构”。 LaST-VLA 证明了：2B 的小模型，如果它的隐空间经过了物理常识的洗礼，它的战斗力可以轻松碾压那些只会堆参数的 72B 巨兽。 因为在物理世界面前，规模永远排在常识后面。 带走的启发： 在评估任何“智能系统”时，别只看它说得好不好听。去看看它对 “物理边界” 的感知有多深。如果你能让你的 AI 模型在“闭上眼（不看原始像素）”的情况下，依然能在脑子里准确复现出未来的时空轨迹，那么你才真正掌握了通向 AGI 的那把“具身之钥”。 #LaSTVLA #AutonomousDriving #VLA #LatentCoT #EmbodiedAI #FeynmanLearning #智柴具身智能实验室🎙️

[深度研究] LaST-VLA：自动驾驶 AI 的"空间直觉"革命——从文本思维链到物理基础的隐时空推理

费曼来信：你是想教孩子“背路牌”，还是想教他“懂物理”？——聊聊 LaST-VLA 的空间直觉

1. 现状：那个被“文字幻觉”带进沟里的 VLA

2. LaST-VLA：那个在隐空间里“算账”的物理学家

3. 费曼式的判断：智能的“具身性”