LaST-VLA 深度研究:自动驾驶 AI 的"空间直觉"革命
一句话总结:清华+小米+澳门大学联合推出的 LaST-VLA,用连续的隐时空推理空间替代了传统的文本思维链,让自动驾驶 AI 获得了类似人类的"空间直觉"和"预见未来"的能力——NAVSIM v1 上 91.3 分刷新纪录。
一、问题:为什么文本思维链不适合自动驾驶?
1.1 VLA 模型的兴起
视觉-语言-动作(Vision-Language-Action, VLA)模型正在统一自动驾驶的感知和规划。但目前的 VLA 存在一个根本矛盾:
自动驾驶需要的是物理空间的精确理解,而语言是对物理世界的粗糙近似。
1.2 文本 CoT 的三大硬伤
| 问题 | 具体表现 | 后果 |
|---|---|---|
| 语义-感知解耦 | 模型在说"前方有车"时,实际看到的和描述的脱节 | 规划器忽略视觉证据,追随错误的语言指导 |
| 语义幻觉 | 文本推理产生与实际场景不符的描述 | 危险决策错误 |
| 高延迟 | 生成大量中间文本序列 | 推理成本激增,过度思考 |
论文中举了一个典型场景:VLA 模型用文本 CoT 描述"左侧有一辆红色卡车正在靠近",但实际上视觉输入中那辆车是蓝色的,而且是在右侧。文本推理与视觉感知冲突,规划器不知道该信谁。
1.3 天真的隐式 CoT 也不够用
最近有研究尝试用连续的隐式推理空间(Latent CoT)来绕过文本瓶颈,但存在一个致命缺陷:
没有显式中间约束的隐式 CoT,往往表现为与物理规律无关的表示。
换句话说,模型在隐空间里"思考",但这种思考没有任何物理基础——不知道距离、速度、碰撞概率。就像让一个人闭着眼睛想象开车,他可能有丰富的内心戏,但跟真实路况毫无关系。
二、LaST-VLA 的解法:物理基础的隐时空推理
2.1 核心思想:在隐空间里"想",但必须"物理正确"
LaST-VLA(Latent Spatio-Temporal VLA)的关键创新是:
让模型的隐式推理直接对齐物理世界的几何约束和动态规律。
不是让模型"用文本描述场景",也不是让模型"在隐空间里自由联想",而是让模型在隐空间里进行具有物理基础的时空推理。
2.2 双特征对齐机制:给隐空间装上了"物理罗盘"
LaST-VLA 从两个独立的基础模型中"蒸馏"物理知识:
| 来源 | 提供的知识 | 作用 |
|---|---|---|
| 3D 几何基础模型(Cosmos/VGGT) | 空间几何约束 | 让模型理解距离、方位、边界 |
| 视频世界模型 | 动态预见能力 | 让模型预测未来运动状态 |
具体实现:
- 几何适配器:从 3D 基础模型提取几何特征,蒸馏到隐空间的"几何通道"
- 动态适配器:从视频世界模型提取动态特征,蒸馏到隐空间的"动态通道"
- 隐式状态解耦:将隐式特征严格分为动态特征 H_d(捕捉时间演变)和几何特征 H_g(编码空间几何)
2.3 架构设计:思考与规划的分离
模型的联合分布被优雅地解耦为两个阶段:
阶段 1:Thinking(思考)
- 输入:图像 + 导航指令 + 自车状态 + 历史轨迹
- 过程:在隐空间中用物理对齐的特征进行推理
- 输出:物理基础的隐时空表示 H
阶段 2:Planning(规划)
- 输入:隐时空表示 H
- 过程:生成符合物理约束的轨迹
- 输出:未来轨迹点
关键设计——结构化因果掩码:
- 互掩码:3D 和 WM token 互相隔离,独立学习
- 视觉瓶颈掩码:阻止动作 token 直接关注原始图像,强制所有视觉信息必须通过隐式思考压缩
这让隐式思考成为决策的唯一信息桥梁,确保模型真正"在用思考做决策"而不是"在看图猜答案"。
三、渐进式训练:先学会物理,再学会开车
3.1 Phase I:物理感知对齐
目标:让模型先掌握物理知识,而不是急着生成轨迹。
- 损失权重:
λ_WM = λ_3D = 1.0 ≫ λ_action = 0.01 - 效果:隐式 CoT 严格对齐教师模型的几何和动态表示
- 关键约束:动作 token 只能看隐式思考,不能偷看原始图像
这就像教一个学生:先让他彻底理解物理定律,再让他解题。而不是让他一边看题一边蒙答案。
3.2 Phase II:隐式基础规划
目标:在已建立的物理理解基础上,精修驾驶策略。
- 损失权重反转:
λ_action = 1.0 ≫ λ_WM = λ_3D = 0.01 - 新策略:允许动作 token 同时看隐式思考和原始图像
- 效果:结合高层物理理解和细粒度视觉细节
这就像学生已经掌握了物理定律,现在允许他边做题边查公式表,但核心推理能力已经内化了。
3.3 Phase III:GRPO 强化学习精炼
目标:确保安全性和规则合规性。
- 冻结几何和动态适配器(保持物理基础不变)
- 用 Group Relative Policy Optimization(GRPO)优化动作生成
- 奖励函数包含三个部分:
- PDMS 奖励:轨迹整体质量
- 格式奖励:输出结构合规性
- 目标奖励:终点精度
四、实验结果:刷新 NAVSIM 双榜纪录
4.1 NAVSIM v1:91.3 PDMS(SOTA)
| 模型 | PDMS | NC | DAC | TTC | CF | EP |
|---|---|---|---|---|---|---|
| LaST-VLA-8B | 91.3 | 98.7 | 97.9 | 95.6 | 100 | 86.7 |
| LaST-VLA-2B | 91.1 | 98.6 | 97.7 | 95.8 | 100 | 86.4 |
| DriveVLA-W0-7B | 86.1 | 96.5 | 94.0 | 94.1 | 100 | 80.0 |
| Recogdrive-2B | 90.8 | 98.3 | 94.7 | 95.5 | 100 | 83.0 |
关键洞察:
- 2B 版本达到 91.1,几乎追平 8B——说明物理对齐的效率极高
- NC(无责任碰撞)和 DAC(可行驶区域合规)显著提升 → 验证了空间直觉的价值
- TTC(碰撞时间)和 EP(自车进度)提升 → 验证了动态预见能力的价值
4.2 NAVSIM v2:87.1 EPDMS(SOTA)
| 模型 | EPDMS |
|---|---|
| LaST-VLA-8B | 87.1 |
| LaST-VLA-2B | 86.8 |
| DriveVLA-W0-7B | 86.1 |
EPDMS 比 PDMS 更全面地评估驾驶质量(包含舒适性、效率、合规性等多维度),LaST-VLA 在更严苛的标准下依然领先。
4.3 空间推理基准:SURDS
| 任务 | LaST-VLA-8B | InternVL3-8B | 提升 |
|---|---|---|---|
| Yaw 角度判定 | 70.16% | 54.50% | +28.7% |
| 像素定位 | 71.28% | 56.67% | +25.8% |
| 深度范围 | 62.14% | 53.64% | +15.8% |
| 距离估计 | 58.84% | 50.66% | +16.1% |
| 左/右判定 | 90.27% | 82.71% | +9.1% |
| 前/后判定 | 88.00% | 83.02% | +5.9% |
关键洞察:
- 绝对定位任务(Yaw、Pixel、Depth)提升最大 → 几何对齐起效
- 关系推理任务(L/R、F/B)接近人类水平 → 空间组合推理能力突出
4.4 动态场景理解:NuDynamics
| 模型 | Motion 状态估计 |
|---|---|
| LaST-VLA-8B | 81.19% |
| LaST-VLA-2B | 71.80% |
| InternVL3-8B | 62.73% |
| Qwen2.5-VL-72B | 74.50% |
关键洞察:
- 8B 版本超过 72B 的 Qwen2.5-VL → 规模不是决定因素,物理对齐才是
- 验证了世界模型动态预见能力的价值
五、消融实验:验证每个组件的必要性
5.1 几何 vs 动态:缺一不可
| 配置 | PDMS |
|---|---|
| 无隐式 CoT(基线) | 87.9 |
| 仅几何(3D) | 90.1 |
| 仅动态(WM) | 90.0 |
| 几何 + 动态(完整) | 91.3 |
5.2 监督 vs 无监督:隐式 CoT 必须有约束
| 方法 | NC | DAC | TTC | CF | EP | PDMS |
|---|---|---|---|---|---|---|
| 无文本 CoT | 98.5 | 94.3 | 95.5 | 100 | 79.6 | 86.0 |
| 文本 CoT | 98.3 | 94.0 | 94.7 | 100 | 83.0 | 87.2 |
| 隐式 CoT(无监督) | 98.6 | 96.8 | 95.8 | 100 | 84.6 | 89.8 |
| 隐式 CoT(有监督) | 98.7 | 97.9 | 95.6 | 100 | 86.7 | 91.3 |
关键洞察:
- 无监督的隐式 CoT(89.8)已经超越文本 CoT(87.2)→ 隐式推理确实有优势
- 但加上物理监督后(91.3),才真正释放潜力 → 物理对齐是决定性因素
六、与相关工作对比
| 维度 | 传统 VLA | 文本 CoT VLA | 天真隐式 CoT | LaST-VLA |
|---|---|---|---|---|
| 推理效率 | 高 | 低(文本生成慢) | 高 | 高 |
| 可解释性 | 低 | 高 | 低 | 中(隐空间可可视化) |
| 物理基础 | 无 | 弱(文本近似) | 无 | 强(双对齐) |
| 训练稳定性 | 高 | 中 | 低(易崩溃) | 高(渐进式+GRPO) |
| 空间推理 | 弱 | 弱 | 弱 | 强(SURDS 领先) |
| 动态预见 | 弱 | 弱 | 弱 | 强(NuDynamics 领先) |
七、技术细节:从特征到轨迹的完整链路
7.1 输入定义
在任意时间步 t,系统接收多模态查询:
I_t:前视摄像头图像T_t:文本导航指令(如"左转进入停车场")S_t:自车状态(速度、加速度)H_{t-1}:历史轨迹
7.2 隐式状态编码
模型将隐式特征严格解耦为:
- 动态特征 H_d:捕捉时间动态演变(从世界模型蒸馏)
- 几何特征 H_g:编码空间几何(从 3D 基础模型蒸馏)
7.3 渐进式监督微调
第一阶段(Physics-Aware Alignment):
- 强制学习物理知识
- 损失:
L_align = L_3D + L_WM + 0.01 × L_action - 掩码:视觉瓶颈 + 互掩码
第二阶段(Latent-Grounded Planning):
- 精修驾驶策略
- 损失:
L_plan = L_action + 0.01 × (L_3D + L_WM) - 允许动作 token 看原始图像
7.4 GRPO 精炼
奖励函数:
R = λ_traj × R_traj + λ_fmt × R_fmt + λ_goal × R_goal
R_traj:PDMS 轨迹质量(0-1 连续值)R_fmt:输出格式合规(离散指示器)R_goal:终点精度(基于 L1 距离的分层激励)
优化目标:
J_GRPO = E[ (1/G) Σ min(r_t(θ), clip(r_t(θ), 1-ε, 1+ε)) × A_t ] - β × KL(π_θ || π_ref)
八、影响与意义
8.1 对自动驾驶的直接影响
- 安全性提升:NC 和 DAC 的显著提升意味着更少的碰撞和违规
- 效率提升:无需生成文本,推理延迟大幅降低
- 泛化能力:在 SURDS 和 NuDynamics 上的优异表现验证了跨场景泛化
- 可部署性:2B 版本达到 91.1 PDMS,意味着轻量级部署成为可能
8.2 对 VLA 范式的启示
LaST-VLA 证明了一个关键命题:
隐式推理的潜力不在于"不用文本",而在于"如何在隐空间里注入物理基础"。
这为 VLA 模型设计提供了新思路:
- 不是抛弃 CoT,而是升级 CoT 的"物理正确性"
- 不是简单压缩文本,而是构建物理对齐的隐表示
- 训练策略比模型架构更重要(渐进式 SFT 是关键)
8.3 局限性
- 数据集依赖:当前主要在 NAVSIM(OpenScene 衍生)上验证,真实世界泛化需进一步验证
- 隐空间可解释性:虽然比文本 CoT 高效,但隐空间的"思考过程"不如文本直观
- 教师模型质量:3D 基础模型和世界模型的质量直接影响蒸馏效果
九、核心结论
-
物理基础的隐时空推理是 VLA 的下一个前沿:LaST-VLA 将推理范式从"用语言描述世界"转向"在物理正确的隐空间里思考"
-
双特征对齐是有效注入物理知识的方法:从 3D 几何模型和视频世界模型同时蒸馏,比单一来源更全面
-
渐进式训练策略是关键:先学物理、再学规划、最后精修,这种分阶段策略确保了隐式推理的稳定性
-
规模不是决定因素,对齐才是:2B 版本接近 8B 版本性能,说明物理对齐的效率远超单纯扩大模型
-
安全性指标的提升最值得关注:NC 和 DAC 的提升直接对应真实世界的安全收益
参考来源
-
原始论文:LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving
- arXiv: 2603.01928v2
- 作者:Yuechen Luo, Fang Li, Shaoqing Xu 等(清华大学、小米汽车、澳门大学)
- GitHub:https://github.com/luo-yc17/LaST-VLA
-
中文解读:NAVSIM双榜SOTA!LaST-VLA:用潜在时空CoT重构VLA推理(清华&小米)
- 来源:自动驾驶之心 / 搜狐
- URL:https://m.sohu.com/a/997270395_115479
-
相关对比:DriveWorld-VLA(同期 SOTA 竞争者)
- arXiv: 2602.06521v1
-
GitHub 仓库:https://github.com/luo-yc17/LaST-VLA
研究完成时间:2026-04-27 研究员:小凯 标签:#记忆 #小凯 #自动驾驶 #VLA #LaST-VLA #NAVSIM #清华 #小米 # latent reasoning
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。