# LaST-VLA 深度研究:自动驾驶 AI 的"空间直觉"革命
> **一句话总结**:清华+小米+澳门大学联合推出的 LaST-VLA,用**连续的隐时空推理空间**替代了传统的文本思维链,让自动驾驶 AI 获得了类似人类的"空间直觉"和"预见未来"的能力——NAVSIM v1 上 91.3 分刷新纪录。
---
## 一、问题:为什么文本思维链不适合自动驾驶?
### 1.1 VLA 模型的兴起
视觉-语言-动作(Vision-Language-Action, VLA)模型正在统一自动驾驶的感知和规划。但目前的 VLA 存在一个根本矛盾:
> **自动驾驶需要的是物理空间的精确理解,而语言是对物理世界的粗糙近似。**
### 1.2 文本 CoT 的三大硬伤
| 问题 | 具体表现 | 后果 |
|------|---------|------|
| **语义-感知解耦** | 模型在说"前方有车"时,实际看到的和描述的脱节 | 规划器忽略视觉证据,追随错误的语言指导 |
| **语义幻觉** | 文本推理产生与实际场景不符的描述 | 危险决策错误 |
| **高延迟** | 生成大量中间文本序列 | 推理成本激增,过度思考 |
论文中举了一个典型场景:VLA 模型用文本 CoT 描述"左侧有一辆红色卡车正在靠近",但实际上视觉输入中那辆车是蓝色的,而且是在右侧。文本推理与视觉感知冲突,规划器不知道该信谁。
### 1.3 天真的隐式 CoT 也不够用
最近有研究尝试用**连续的隐式推理空间**(Latent CoT)来绕过文本瓶颈,但存在一个致命缺陷:
> **没有显式中间约束的隐式 CoT,往往表现为与物理规律无关的表示。**
换句话说,模型在隐空间里"思考",但这种思考没有任何物理基础——不知道距离、速度、碰撞概率。就像让一个人闭着眼睛想象开车,他可能有丰富的内心戏,但跟真实路况毫无关系。
---
## 二、LaST-VLA 的解法:物理基础的隐时空推理
### 2.1 核心思想:在隐空间里"想",但必须"物理正确"
LaST-VLA(Latent Spatio-Temporal VLA)的关键创新是:
> **让模型的隐式推理直接对齐物理世界的几何约束和动态规律。**
不是让模型"用文本描述场景",也不是让模型"在隐空间里自由联想",而是让模型在隐空间里进行**具有物理基础的时空推理**。
### 2.2 双特征对齐机制:给隐空间装上了"物理罗盘"
LaST-VLA 从两个独立的基础模型中"蒸馏"物理知识:
| 来源 | 提供的知识 | 作用 |
|------|----------|------|
| **3D 几何基础模型**(Cosmos/VGGT) | 空间几何约束 | 让模型理解距离、方位、边界 |
| **视频世界模型** | 动态预见能力 | 让模型预测未来运动状态 |
**具体实现:**
1. **几何适配器**:从 3D 基础模型提取几何特征,蒸馏到隐空间的"几何通道"
2. **动态适配器**:从视频世界模型提取动态特征,蒸馏到隐空间的"动态通道"
3. **隐式状态解耦**:将隐式特征严格分为动态特征 H_d(捕捉时间演变)和几何特征 H_g(编码空间几何)
### 2.3 架构设计:思考与规划的分离
模型的联合分布被优雅地解耦为两个阶段:
**阶段 1:Thinking(思考)**
- 输入:图像 + 导航指令 + 自车状态 + 历史轨迹
- 过程:在隐空间中用物理对齐的特征进行推理
- 输出:物理基础的隐时空表示 H
**阶段 2:Planning(规划)**
- 输入:隐时空表示 H
- 过程:生成符合物理约束的轨迹
- 输出:未来轨迹点
**关键设计——结构化因果掩码:**
- **互掩码**:3D 和 WM token 互相隔离,独立学习
- **视觉瓶颈掩码**:阻止动作 token 直接关注原始图像,强制所有视觉信息必须通过隐式思考压缩
这让隐式思考成为决策的唯一信息桥梁,确保模型真正"在用思考做决策"而不是"在看图猜答案"。
---
## 三、渐进式训练:先学会物理,再学会开车
### 3.1 Phase I:物理感知对齐
**目标**:让模型先掌握物理知识,而不是急着生成轨迹。
- 损失权重:`λ_WM = λ_3D = 1.0 ≫ λ_action = 0.01`
- 效果:隐式 CoT 严格对齐教师模型的几何和动态表示
- 关键约束:动作 token 只能看隐式思考,不能偷看原始图像
这就像教一个学生:先让他彻底理解物理定律,再让他解题。而不是让他一边看题一边蒙答案。
### 3.2 Phase II:隐式基础规划
**目标**:在已建立的物理理解基础上,精修驾驶策略。
- 损失权重反转:`λ_action = 1.0 ≫ λ_WM = λ_3D = 0.01`
- 新策略:允许动作 token 同时看隐式思考和原始图像
- 效果:结合高层物理理解和细粒度视觉细节
这就像学生已经掌握了物理定律,现在允许他边做题边查公式表,但核心推理能力已经内化了。
### 3.3 Phase III:GRPO 强化学习精炼
**目标**:确保安全性和规则合规性。
- 冻结几何和动态适配器(保持物理基础不变)
- 用 Group Relative Policy Optimization(GRPO)优化动作生成
- 奖励函数包含三个部分:
1. **PDMS 奖励**:轨迹整体质量
2. **格式奖励**:输出结构合规性
3. **目标奖励**:终点精度
---
## 四、实验结果:刷新 NAVSIM 双榜纪录
### 4.1 NAVSIM v1:91.3 PDMS(SOTA)
| 模型 | PDMS | NC | DAC | TTC | CF | EP |
|------|------|-----|-----|-----|-----|-----|
| **LaST-VLA-8B** | **91.3** | **98.7** | **97.9** | 95.6 | 100 | **86.7** |
| LaST-VLA-2B | 91.1 | 98.6 | 97.7 | 95.8 | 100 | 86.4 |
| DriveVLA-W0-7B | 86.1 | 96.5 | 94.0 | 94.1 | 100 | 80.0 |
| Recogdrive-2B | 90.8 | 98.3 | 94.7 | 95.5 | 100 | 83.0 |
**关键洞察:**
- 2B 版本达到 91.1,几乎追平 8B——说明物理对齐的效率极高
- NC(无责任碰撞)和 DAC(可行驶区域合规)显著提升 → 验证了空间直觉的价值
- TTC(碰撞时间)和 EP(自车进度)提升 → 验证了动态预见能力的价值
### 4.2 NAVSIM v2:87.1 EPDMS(SOTA)
| 模型 | EPDMS |
|------|-------|
| **LaST-VLA-8B** | **87.1** |
| LaST-VLA-2B | 86.8 |
| DriveVLA-W0-7B | 86.1 |
EPDMS 比 PDMS 更全面地评估驾驶质量(包含舒适性、效率、合规性等多维度),LaST-VLA 在更严苛的标准下依然领先。
### 4.3 空间推理基准:SURDS
| 任务 | LaST-VLA-8B | InternVL3-8B | 提升 |
|------|------------|-------------|------|
| Yaw 角度判定 | 70.16% | 54.50% | +28.7% |
| 像素定位 | 71.28% | 56.67% | +25.8% |
| 深度范围 | 62.14% | 53.64% | +15.8% |
| 距离估计 | 58.84% | 50.66% | +16.1% |
| 左/右判定 | **90.27%** | 82.71% | +9.1% |
| 前/后判定 | **88.00%** | 83.02% | +5.9% |
**关键洞察:**
- 绝对定位任务(Yaw、Pixel、Depth)提升最大 → 几何对齐起效
- 关系推理任务(L/R、F/B)接近人类水平 → 空间组合推理能力突出
### 4.4 动态场景理解:NuDynamics
| 模型 | Motion 状态估计 |
|------|----------------|
| LaST-VLA-8B | **81.19%** |
| LaST-VLA-2B | 71.80% |
| InternVL3-8B | 62.73% |
| Qwen2.5-VL-72B | 74.50% |
**关键洞察:**
- 8B 版本超过 72B 的 Qwen2.5-VL → 规模不是决定因素,物理对齐才是
- 验证了世界模型动态预见能力的价值
---
## 五、消融实验:验证每个组件的必要性
### 5.1 几何 vs 动态:缺一不可
| 配置 | PDMS |
|------|------|
| 无隐式 CoT(基线) | 87.9 |
| 仅几何(3D) | 90.1 |
| 仅动态(WM) | 90.0 |
| **几何 + 动态(完整)** | **91.3** |
### 5.2 监督 vs 无监督:隐式 CoT 必须有约束
| 方法 | NC | DAC | TTC | CF | EP | PDMS |
|------|-----|-----|-----|-----|-----|------|
| 无文本 CoT | 98.5 | 94.3 | 95.5 | 100 | 79.6 | 86.0 |
| 文本 CoT | 98.3 | 94.0 | 94.7 | 100 | 83.0 | 87.2 |
| 隐式 CoT(无监督) | 98.6 | 96.8 | 95.8 | 100 | 84.6 | 89.8 |
| **隐式 CoT(有监督)** | **98.7** | **97.9** | **95.6** | 100 | **86.7** | **91.3** |
**关键洞察:**
- 无监督的隐式 CoT(89.8)已经超越文本 CoT(87.2)→ 隐式推理确实有优势
- 但加上物理监督后(91.3),才真正释放潜力 → **物理对齐是决定性因素**
---
## 六、与相关工作对比
| 维度 | 传统 VLA | 文本 CoT VLA | 天真隐式 CoT | LaST-VLA |
|------|---------|-------------|------------|----------|
| 推理效率 | 高 | 低(文本生成慢) | 高 | 高 |
| 可解释性 | 低 | 高 | 低 | 中(隐空间可可视化) |
| 物理基础 | 无 | 弱(文本近似) | 无 | **强(双对齐)** |
| 训练稳定性 | 高 | 中 | **低(易崩溃)** | **高(渐进式+GRPO)** |
| 空间推理 | 弱 | 弱 | 弱 | **强(SURDS 领先)** |
| 动态预见 | 弱 | 弱 | 弱 | **强(NuDynamics 领先)** |
---
## 七、技术细节:从特征到轨迹的完整链路
### 7.1 输入定义
在任意时间步 t,系统接收多模态查询:
- `I_t`:前视摄像头图像
- `T_t`:文本导航指令(如"左转进入停车场")
- `S_t`:自车状态(速度、加速度)
- `H_{t-1}`:历史轨迹
### 7.2 隐式状态编码
模型将隐式特征严格解耦为:
- **动态特征 H_d**:捕捉时间动态演变(从世界模型蒸馏)
- **几何特征 H_g**:编码空间几何(从 3D 基础模型蒸馏)
### 7.3 渐进式监督微调
**第一阶段(Physics-Aware Alignment):**
- 强制学习物理知识
- 损失:`L_align = L_3D + L_WM + 0.01 × L_action`
- 掩码:视觉瓶颈 + 互掩码
**第二阶段(Latent-Grounded Planning):**
- 精修驾驶策略
- 损失:`L_plan = L_action + 0.01 × (L_3D + L_WM)`
- 允许动作 token 看原始图像
### 7.4 GRPO 精炼
奖励函数:
```
R = λ_traj × R_traj + λ_fmt × R_fmt + λ_goal × R_goal
```
- `R_traj`:PDMS 轨迹质量(0-1 连续值)
- `R_fmt`:输出格式合规(离散指示器)
- `R_goal`:终点精度(基于 L1 距离的分层激励)
优化目标:
```
J_GRPO = E[ (1/G) Σ min(r_t(θ), clip(r_t(θ), 1-ε, 1+ε)) × A_t ] - β × KL(π_θ || π_ref)
```
---
## 八、影响与意义
### 8.1 对自动驾驶的直接影响
1. **安全性提升**:NC 和 DAC 的显著提升意味着更少的碰撞和违规
2. **效率提升**:无需生成文本,推理延迟大幅降低
3. **泛化能力**:在 SURDS 和 NuDynamics 上的优异表现验证了跨场景泛化
4. **可部署性**:2B 版本达到 91.1 PDMS,意味着轻量级部署成为可能
### 8.2 对 VLA 范式的启示
LaST-VLA 证明了一个关键命题:
> **隐式推理的潜力不在于"不用文本",而在于"如何在隐空间里注入物理基础"。**
这为 VLA 模型设计提供了新思路:
- 不是抛弃 CoT,而是升级 CoT 的"物理正确性"
- 不是简单压缩文本,而是构建物理对齐的隐表示
- 训练策略比模型架构更重要(渐进式 SFT 是关键)
### 8.3 局限性
1. **数据集依赖**:当前主要在 NAVSIM(OpenScene 衍生)上验证,真实世界泛化需进一步验证
2. **隐空间可解释性**:虽然比文本 CoT 高效,但隐空间的"思考过程"不如文本直观
3. **教师模型质量**:3D 基础模型和世界模型的质量直接影响蒸馏效果
---
## 九、核心结论
1. **物理基础的隐时空推理是 VLA 的下一个前沿**:LaST-VLA 将推理范式从"用语言描述世界"转向"在物理正确的隐空间里思考"
2. **双特征对齐是有效注入物理知识的方法**:从 3D 几何模型和视频世界模型同时蒸馏,比单一来源更全面
3. **渐进式训练策略是关键**:先学物理、再学规划、最后精修,这种分阶段策略确保了隐式推理的稳定性
4. **规模不是决定因素,对齐才是**:2B 版本接近 8B 版本性能,说明物理对齐的效率远超单纯扩大模型
5. **安全性指标的提升最值得关注**:NC 和 DAC 的提升直接对应真实世界的安全收益
---
## 参考来源
- **原始论文**:LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving
- arXiv: 2603.01928v2
- 作者:Yuechen Luo, Fang Li, Shaoqing Xu 等(清华大学、小米汽车、澳门大学)
- GitHub:https://github.com/luo-yc17/LaST-VLA
- **中文解读**:NAVSIM双榜SOTA!LaST-VLA:用潜在时空CoT重构VLA推理(清华&小米)
- 来源:自动驾驶之心 / 搜狐
- URL:https://m.sohu.com/a/997270395_115479
- **相关对比**:DriveWorld-VLA(同期 SOTA 竞争者)
- arXiv: 2602.06521v1
- **GitHub 仓库**:https://github.com/luo-yc17/LaST-VLA
---
*研究完成时间:2026-04-27*
*研究员:小凯*
*标签:#记忆 #小凯 #自动驾驶 #VLA #LaST-VLA #NAVSIM #清华 #小米 # latent reasoning*
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!