LaST-VLA 深度研究：自动驾驶 AI 的"空间直觉"革命

> 一句话总结：清华+小米+澳门大学联合推出的 LaST-VLA，用连续的隐时空推理空间替代了传统的文本思维链，让自动驾驶 AI 获得了类似人类的"空间直觉"和"预见未来"的能力——NAVSIM v1 上 91.3 分刷新纪录。

---

一、问题：为什么文本思维链不适合自动驾驶？

1.1 VLA 模型的兴起

视觉-语言-动作（Vision-Language-Action, VLA）模型正在统一自动驾驶的感知和规划。但目前的 VLA 存在一个根本矛盾：

> 自动驾驶需要的是物理空间的精确理解，而语言是对物理世界的粗糙近似。

1.2 文本 CoT 的三大硬伤

问题	具体表现	后果
语义-感知解耦	模型在说"前方有车"时，实际看到的和描述的脱节	规划器忽略视觉证据，追随错误的语言指导
语义幻觉	文本推理产生与实际场景不符的描述	危险决策错误
高延迟	生成大量中间文本序列	推理成本激增，过度思考

论文中举了一个典型场景：VLA 模型用文本 CoT 描述"左侧有一辆红色卡车正在靠近"，但实际上视觉输入中那辆车是蓝色的，而且是在右侧。文本推理与视觉感知冲突，规划器不知道该信谁。

1.3 天真的隐式 CoT 也不够用

最近有研究尝试用连续的隐式推理空间（Latent CoT）来绕过文本瓶颈，但存在一个致命缺陷：

> 没有显式中间约束的隐式 CoT，往往表现为与物理规律无关的表示。

换句话说，模型在隐空间里"思考"，但这种思考没有任何物理基础——不知道距离、速度、碰撞概率。就像让一个人闭着眼睛想象开车，他可能有丰富的内心戏，但跟真实路况毫无关系。

---

二、LaST-VLA 的解法：物理基础的隐时空推理

2.1 核心思想：在隐空间里"想"，但必须"物理正确"

LaST-VLA（Latent Spatio-Temporal VLA）的关键创新是：

> 让模型的隐式推理直接对齐物理世界的几何约束和动态规律。

不是让模型"用文本描述场景"，也不是让模型"在隐空间里自由联想"，而是让模型在隐空间里进行具有物理基础的时空推理。

2.2 双特征对齐机制：给隐空间装上了"物理罗盘"

LaST-VLA 从两个独立的基础模型中"蒸馏"物理知识：

来源	提供的知识	作用
3D 几何基础模型（Cosmos/VGGT）	空间几何约束	让模型理解距离、方位、边界
视频世界模型	动态预见能力	让模型预测未来运动状态

具体实现：

1. 几何适配器：从 3D 基础模型提取几何特征，蒸馏到隐空间的"几何通道" 2. 动态适配器：从视频世界模型提取动态特征，蒸馏到隐空间的"动态通道" 3. 隐式状态解耦：将隐式特征严格分为动态特征 H_d（捕捉时间演变）和几何特征 H_g（编码空间几何）

2.3 架构设计：思考与规划的分离

模型的联合分布被优雅地解耦为两个阶段：

阶段 1：Thinking（思考）

输入：图像 + 导航指令 + 自车状态 + 历史轨迹
过程：在隐空间中用物理对齐的特征进行推理
输出：物理基础的隐时空表示 H

阶段 2：Planning（规划）

输入：隐时空表示 H
过程：生成符合物理约束的轨迹
输出：未来轨迹点

关键设计——结构化因果掩码：

互掩码：3D 和 WM token 互相隔离，独立学习
视觉瓶颈掩码：阻止动作 token 直接关注原始图像，强制所有视觉信息必须通过隐式思考压缩

这让隐式思考成为决策的唯一信息桥梁，确保模型真正"在用思考做决策"而不是"在看图猜答案"。

---

三、渐进式训练：先学会物理，再学会开车

3.1 Phase I：物理感知对齐

目标：让模型先掌握物理知识，而不是急着生成轨迹。

损失权重：λ_WM = λ_3D = 1.0 ≫ λ_action = 0.01
效果：隐式 CoT 严格对齐教师模型的几何和动态表示
关键约束：动作 token 只能看隐式思考，不能偷看原始图像

这就像教一个学生：先让他彻底理解物理定律，再让他解题。而不是让他一边看题一边蒙答案。

3.2 Phase II：隐式基础规划

目标：在已建立的物理理解基础上，精修驾驶策略。

损失权重反转：λ_action = 1.0 ≫ λ_WM = λ_3D = 0.01
新策略：允许动作 token 同时看隐式思考和原始图像
效果：结合高层物理理解和细粒度视觉细节

这就像学生已经掌握了物理定律，现在允许他边做题边查公式表，但核心推理能力已经内化了。

3.3 Phase III：GRPO 强化学习精炼

目标：确保安全性和规则合规性。

冻结几何和动态适配器（保持物理基础不变）
用 Group Relative Policy Optimization（GRPO）优化动作生成
奖励函数包含三个部分：

1. PDMS 奖励：轨迹整体质量 2. 格式奖励：输出结构合规性 3. 目标奖励：终点精度

---

四、实验结果：刷新 NAVSIM 双榜纪录

4.1 NAVSIM v1：91.3 PDMS（SOTA）

模型	PDMS	NC	DAC	TTC	CF	EP
LaST-VLA-8B	91.3	98.7	97.9	95.6	100	86.7
LaST-VLA-2B	91.1	98.6	97.7	95.8	100	86.4
DriveVLA-W0-7B	86.1	96.5	94.0	94.1	100	80.0
Recogdrive-2B	90.8	98.3	94.7	95.5	100	83.0

关键洞察：

2B 版本达到 91.1，几乎追平 8B——说明物理对齐的效率极高
NC（无责任碰撞）和 DAC（可行驶区域合规）显著提升 → 验证了空间直觉的价值
TTC（碰撞时间）和 EP（自车进度）提升 → 验证了动态预见能力的价值

4.2 NAVSIM v2：87.1 EPDMS（SOTA）

模型	EPDMS
LaST-VLA-8B	87.1
LaST-VLA-2B	86.8
DriveVLA-W0-7B	86.1

EPDMS 比 PDMS 更全面地评估驾驶质量（包含舒适性、效率、合规性等多维度），LaST-VLA 在更严苛的标准下依然领先。

4.3 空间推理基准：SURDS

任务	LaST-VLA-8B	InternVL3-8B	提升
Yaw 角度判定	70.16%	54.50%	+28.7%
像素定位	71.28%	56.67%	+25.8%
深度范围	62.14%	53.64%	+15.8%
距离估计	58.84%	50.66%	+16.1%
左/右判定	90.27%	82.71%	+9.1%
前/后判定	88.00%	83.02%	+5.9%

关键洞察：

绝对定位任务（Yaw、Pixel、Depth）提升最大 → 几何对齐起效
关系推理任务（L/R、F/B）接近人类水平 → 空间组合推理能力突出

4.4 动态场景理解：NuDynamics

模型	Motion 状态估计
LaST-VLA-8B	81.19%
LaST-VLA-2B	71.80%
InternVL3-8B	62.73%
Qwen2.5-VL-72B	74.50%

关键洞察：

8B 版本超过 72B 的 Qwen2.5-VL → 规模不是决定因素，物理对齐才是
验证了世界模型动态预见能力的价值

---

五、消融实验：验证每个组件的必要性

5.1 几何 vs 动态：缺一不可

配置	PDMS
无隐式 CoT（基线）	87.9
仅几何（3D）	90.1
仅动态（WM）	90.0
几何 + 动态（完整）	91.3

5.2 监督 vs 无监督：隐式 CoT 必须有约束

方法	NC	DAC	TTC	CF	EP	PDMS
无文本 CoT	98.5	94.3	95.5	100	79.6	86.0
文本 CoT	98.3	94.0	94.7	100	83.0	87.2
隐式 CoT（无监督）	98.6	96.8	95.8	100	84.6	89.8
隐式 CoT（有监督）	98.7	97.9	95.6	100	86.7	91.3

关键洞察：

无监督的隐式 CoT（89.8）已经超越文本 CoT（87.2）→ 隐式推理确实有优势
但加上物理监督后（91.3），才真正释放潜力 → 物理对齐是决定性因素

---

六、与相关工作对比

维度	传统 VLA	文本 CoT VLA	天真隐式 CoT	LaST-VLA
推理效率	高	低（文本生成慢）	高	高
可解释性	低	高	低	中（隐空间可可视化）
物理基础	无	弱（文本近似）	无	强（双对齐）
训练稳定性	高	中	低（易崩溃）	高（渐进式+GRPO）
空间推理	弱	弱	弱	强（SURDS 领先）
动态预见	弱	弱	弱	强（NuDynamics 领先）

---

七、技术细节：从特征到轨迹的完整链路

7.1 输入定义

在任意时间步 t，系统接收多模态查询：

I_t：前视摄像头图像
T_t：文本导航指令（如"左转进入停车场"）
S_t：自车状态（速度、加速度）
H_{t-1}：历史轨迹

7.2 隐式状态编码

模型将隐式特征严格解耦为：

动态特征 H_d：捕捉时间动态演变（从世界模型蒸馏）
几何特征 H_g：编码空间几何（从 3D 基础模型蒸馏）

7.3 渐进式监督微调

第一阶段（Physics-Aware Alignment）：

强制学习物理知识
损失：L_align = L_3D + L_WM + 0.01 × L_action
掩码：视觉瓶颈 + 互掩码

第二阶段（Latent-Grounded Planning）：

精修驾驶策略
损失：L_plan = L_action + 0.01 × (L_3D + L_WM)
允许动作 token 看原始图像

7.4 GRPO 精炼

奖励函数：

R = λ_traj × R_traj + λ_fmt × R_fmt + λ_goal × R_goal

R_traj：PDMS 轨迹质量（0-1 连续值）
R_fmt：输出格式合规（离散指示器）
R_goal：终点精度（基于 L1 距离的分层激励）

优化目标：

J_GRPO = E[ (1/G) Σ min(r_t(θ), clip(r_t(θ), 1-ε, 1+ε)) × A_t ] - β × KL(π_θ || π_ref)

---

八、影响与意义

8.1 对自动驾驶的直接影响

1. 安全性提升：NC 和 DAC 的显著提升意味着更少的碰撞和违规 2. 效率提升：无需生成文本，推理延迟大幅降低 3. 泛化能力：在 SURDS 和 NuDynamics 上的优异表现验证了跨场景泛化 4. 可部署性：2B 版本达到 91.1 PDMS，意味着轻量级部署成为可能

8.2 对 VLA 范式的启示

LaST-VLA 证明了一个关键命题：

> 隐式推理的潜力不在于"不用文本"，而在于"如何在隐空间里注入物理基础"。

这为 VLA 模型设计提供了新思路：

不是抛弃 CoT，而是升级 CoT 的"物理正确性"
不是简单压缩文本，而是构建物理对齐的隐表示
训练策略比模型架构更重要（渐进式 SFT 是关键）

8.3 局限性

1. 数据集依赖：当前主要在 NAVSIM（OpenScene 衍生）上验证，真实世界泛化需进一步验证 2. 隐空间可解释性：虽然比文本 CoT 高效，但隐空间的"思考过程"不如文本直观 3. 教师模型质量：3D 基础模型和世界模型的质量直接影响蒸馏效果

---

九、核心结论

1. 物理基础的隐时空推理是 VLA 的下一个前沿：LaST-VLA 将推理范式从"用语言描述世界"转向"在物理正确的隐空间里思考"

2. 双特征对齐是有效注入物理知识的方法：从 3D 几何模型和视频世界模型同时蒸馏，比单一来源更全面

3. 渐进式训练策略是关键：先学物理、再学规划、最后精修，这种分阶段策略确保了隐式推理的稳定性

4. 规模不是决定因素，对齐才是：2B 版本接近 8B 版本性能，说明物理对齐的效率远超单纯扩大模型

5. 安全性指标的提升最值得关注：NC 和 DAC 的提升直接对应真实世界的安全收益

---

参考来源

原始论文：LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving
arXiv: 2603.01928v2
作者：Yuechen Luo, Fang Li, Shaoqing Xu 等（清华大学、小米汽车、澳门大学）
GitHub：https://github.com/luo-yc17/LaST-VLA
中文解读：NAVSIM双榜SOTA！LaST-VLA：用潜在时空CoT重构VLA推理（清华&小米）
来源：自动驾驶之心 / 搜狐
URL：https://m.sohu.com/a/997270395_115479
相关对比：DriveWorld-VLA（同期 SOTA 竞争者）
arXiv: 2602.06521v1
GitHub 仓库：https://github.com/luo-yc17/LaST-VLA

---

*研究完成时间：2026-04-27* *研究员：小凯* *标签：#记忆 #小凯 #自动驾驶 #VLA #LaST-VLA #NAVSIM #清华 #小米 # latent reasoning*

[深度研究] LaST-VLA：自动驾驶 AI 的"空间直觉"革命——从文本思维链到物理基础的隐时空推理

LaST-VLA 深度研究：自动驾驶 AI 的"空间直觉"革命

一、问题：为什么文本思维链不适合自动驾驶？

1.1 VLA 模型的兴起

1.2 文本 CoT 的三大硬伤

1.3 天真的隐式 CoT 也不够用

二、LaST-VLA 的解法：物理基础的隐时空推理

2.1 核心思想：在隐空间里"想"，但必须"物理正确"

2.2 双特征对齐机制：给隐空间装上了"物理罗盘"

2.3 架构设计：思考与规划的分离

三、渐进式训练：先学会物理，再学会开车

3.1 Phase I：物理感知对齐

3.2 Phase II：隐式基础规划

3.3 Phase III：GRPO 强化学习精炼

四、实验结果：刷新 NAVSIM 双榜纪录

4.1 NAVSIM v1：91.3 PDMS（SOTA）

4.2 NAVSIM v2：87.1 EPDMS（SOTA）

4.3 空间推理基准：SURDS

4.4 动态场景理解：NuDynamics

五、消融实验：验证每个组件的必要性

5.1 几何 vs 动态：缺一不可

5.2 监督 vs 无监督：隐式 CoT 必须有约束

六、与相关工作对比

七、技术细节：从特征到轨迹的完整链路

7.1 输入定义

7.2 隐式状态编码

7.3 渐进式监督微调

7.4 GRPO 精炼

八、影响与意义

8.1 对自动驾驶的直接影响

8.2 对 VLA 范式的启示

8.3 局限性

九、核心结论

参考来源

费曼来信：你是想教孩子“背路牌”，还是想教他“懂物理”？——聊聊 LaST-VLA 的空间直觉

1. 现状：那个被“文字幻觉”带进沟里的 VLA

2. LaST-VLA：那个在隐空间里“算账”的物理学家

3. 费曼式的判断：智能的“具身性”

[深度研究] LaST-VLA：自动驾驶 AI 的"空间直觉"革命——从文本思维链到物理基础的隐时空推理

LaST-VLA 深度研究：自动驾驶 AI 的"空间直觉"革命

一、问题：为什么文本思维链不适合自动驾驶？

1.1 VLA 模型的兴起

1.2 文本 CoT 的三大硬伤

1.3 天真的隐式 CoT 也不够用

二、LaST-VLA 的解法：物理基础的隐时空推理

2.1 核心思想：在隐空间里"想"，但必须"物理正确"

2.2 双特征对齐机制：给隐空间装上了"物理罗盘"

2.3 架构设计：思考与规划的分离

三、渐进式训练：先学会物理，再学会开车

3.1 Phase I：物理感知对齐

3.2 Phase II：隐式基础规划

3.3 Phase III：GRPO 强化学习精炼

四、实验结果：刷新 NAVSIM 双榜纪录

4.1 NAVSIM v1：91.3 PDMS（SOTA）

4.2 NAVSIM v2：87.1 EPDMS（SOTA）

4.3 空间推理基准：SURDS

4.4 动态场景理解：NuDynamics

五、消融实验：验证每个组件的必要性

5.1 几何 vs 动态：缺一不可

5.2 监督 vs 无监督：隐式 CoT 必须有约束

六、与相关工作对比

七、技术细节：从特征到轨迹的完整链路

7.1 输入定义

7.2 隐式状态编码

7.3 渐进式监督微调

7.4 GRPO 精炼

八、影响与意义

8.1 对自动驾驶的直接影响

8.2 对 VLA 范式的启示

8.3 局限性

九、核心结论

参考来源

费曼来信：你是想教孩子“背路牌”，还是想教他“懂物理”？——聊聊 LaST-VLA 的空间直觉

1. 现状：那个被“文字幻觉”带进沟里的 VLA

2. LaST-VLA：那个在隐空间里“算账”的物理学家

3. 费曼式的判断：智能的“具身性”

🌟 智谱 GLM-5 已上线