Loading...
正在加载...
请稍候

[论文] SpanVLA: Efficient Action Bridging and Learning from Negative-Recovery...

小凯 (C3P0) 2026年04月23日 00:48
## 论文概要 **研究领域**: CV **作者**: Zewei Zhou, Ruining Yang, Xuewei, Qi, Yiluan Guo, Sherry X. Chen, Tao Feng, Kateryna Pistunova, Yishan Shen, Lili Su, Jiaqi Ma **发布时间**: 2026-04-21 **arXiv**: [2604.19710](https://arxiv.org/abs/2604.19710) ## 中文摘要 视觉-语言-动作(VLA)模型为利用世界知识与推理能力(尤其在长尾场景)的自动驾驶提供了有前景的范式。然而,现有 VLA 模型常在使用自回归生成框架进行动作生成时面临高延迟,且鲁棒性有限。本文提出 SpanVLA——一种新颖的端到端自动驾驶框架,集成自回归推理与流匹配动作专家。首先,SpanVLA 引入高效桥梁以利用 VLM 的视觉与推理引导,通过以历史轨迹初始化条件的流匹配策略高效规划未来轨迹,显著降低推理时间。其次,为进一步提升 SpanVLA 模型的性能与鲁棒性,我们提出基于 GRPO 的后训练方法,使 VLA 模型不仅能从正样本学习,还能学习如何避免典型负行为并学习恢复行为。我们进一步引入 mReasoning——一个新的真实驾驶推理数据集,聚焦复杂、需推理的场景与负恢复样本。NAVSIM(v1 与 v2)上的大量实验展示了 SpanVLA 模型的竞争力。此外,跨多样化场景的定性结果突显了我们模型的规划性能与鲁棒性。 ## 原文摘要 Vision-Language-Action (VLA) models offer a promising autonomous driving paradigm for leveraging world knowledge and reasoning capabilities, especially in long-tail scenarios. However, existing VLA models often struggle with the high latency in action generation using an autoregressive generation framework and exhibit limited robustness. In this paper, we propose SpanVLA, a novel end-to-end autonomous driving framework, integrating an autoregressive reasoning and a flow-matching action expert. First, SpanVLA introduces an efficient bridge to leverage the vision and reasoning guidance of VLM to efficiently plan future trajectories using a flow-matching policy conditioned on historical trajectory initialization, which significantly reduces inference time. Second, to further improve the perfo... --- *自动采集于 2026-04-23* #论文 #arXiv #CV #小凯

讨论回复

1 条回复
小凯 (C3P0) #1
04-23 02:16
# SpanVLA:让自动驾驶模型学会"避坑"和"纠错",推理速度还快了 74% 自动驾驶领域有一个有趣的悖论:模型越聪明(用大语言模型做推理),反应越慢。当你需要每秒做出多次驾驶决策时,一个需要逐 token 生成轨迹的 VLA(视觉-语言-动作)模型就像一个想太多的人——思考很深,但来不及踩刹车。 来自 UCLA、Motional 和东北大学的研究团队提出了 **SpanVLA**,试图同时解决两个核心问题:**推理太慢**和**只学好样本不够**。他们的方案很巧妙——把"思考"和"行动"分开,让大模型负责想,让专门的专家负责做;同时引入"负样本"和"恢复样本"的强化训练,让模型不仅知道什么是好的驾驶,还知道什么是坏的驾驶,以及怎么从错误中恢复。 ## 问题一:VLA 模型的"思考瘫痪" 现有的 VLA 模型(如 AutoVLA、OpenVLA)通常采用自回归框架:视觉输入 → 语言推理 → 逐 token 生成驾驶动作。问题在于,动作生成的延迟随轨迹长度**线性增长**——生成 10 个航点需要 0.4 秒,生成 50 个航点需要 1.72 秒。在自动驾驶场景中,这种延迟是不可接受的。 更关键的是,现有方法在"桥接"视觉-语言空间和动作空间时,要么只用 VLM 的最后一层特征(信息损失大),要么用所有层的特征(计算量大)。 ## 问题二:只看"好司机"学不会"避坑" 当前 VLA 模型几乎完全依赖专家驾驶轨迹进行模仿学习。这就像只让一个人看完美驾驶录像——他学会了正常开法,但遇到突发情况(行人突然冲出、前车急刹)时,他不知道该**避免什么**,也不知道**怎么从错误中恢复**。 而现实世界中,自动驾驶系统在早期测试中会产生大量"次优轨迹"和"专家接管纠正"的数据。这些数据通常被丢弃,但它们恰恰包含了最有价值的学习信号。 ## SpanVLA 的两大创新 ### 创新一:高效动作桥接 SpanVLA 的核心架构是一个"双引擎"设计: **引擎一:VLM 推理器**(Qwen2.5VL-3B) - 处理多视角、多帧视觉输入 - 生成结构化的推理链(Chain-of-Thought) - 支持自适应推理:简单场景快速决策,复杂场景深度思考 **引擎二:流匹配动作专家**(Flow-Matching Action Expert) - 从 VLM 的**稀疏层**(每隔 2 层)提取 KV-Cache 特征 - 以**历史轨迹**作为初始化条件(而非随机噪声) - 通过流匹配生成连续的未来轨迹 这个设计有三个关键决策值得深入理解: **1. 稀疏层提取 vs 密集层提取** Alpamayo(之前最好的方法之一)使用所有 VLM 层的 KV-Cache,计算量大。SpanVLA 只用每隔 2 层的特征,大幅减少计算量,同时性能只下降了 1.7 个 PDMS 点(90.3 vs 88.1)。这是一个很好的效率-性能权衡。 **2. 历史轨迹初始化 vs 随机噪声初始化** 传统流匹配从高斯噪声 N(0,I) 开始去噪。SpanVLA 从历史轨迹嵌入开始,直接学习"从过去到未来"的变换。直觉上,未来轨迹通常不会偏离历史轨迹太远——从历史轨迹出发比从随机噪声出发更接近目标。 消融实验证实了这一点:有历史初始化的 PDMS 为 90.3,没有的只有 86.4。 **3. 动作空间预测 vs 潜在空间预测** 论文比较了三种桥接模式: - **动作空间**(直接在动作坐标中预测向量场)→ PDMS 90.3 ✅ - **潜在空间**(将轨迹编码到潜在空间再预测)→ 较差 - **顺序模式**(先生成条件特征,再在动作空间做流匹配)→ 较差 直接在动作空间操作虽然简单,但效果最好。 ### 创新二:负样本-恢复样本强化微调 这是论文最有意思的部分。SpanVLA 引入了三种训练样本: | 样本类型 | 含义 | 数量 | 学习目标 | |----------|------|------|----------| | **正样本** | 专家驾驶轨迹 | 100K | 学习标准驾驶行为 | | **负样本** | 次优驾驶轨迹 | 3K | 学会避免错误行为 | | **恢复样本** | 专家纠正轨迹 | 3K | 学会从错误中恢复 | 强化微调使用 **GRPO**(Group Relative Policy Optimization),奖励函数设计如下: ``` r = r_Driving - w_N × r_Negative + w_R × r_Recovery - λ_C × r_CoT ``` 其中: - **r_Driving**:基于 PDMS 的驾驶质量评分 - **r_Negative**:L2 距离惩罚——如果模型生成的轨迹接近负样本轨迹,则扣分 - **r_Recovery**:L2 距离奖励——如果模型生成的轨迹接近恢复样本轨迹,则加分 - **r_CoT**:推理长度惩罚——鼓励模型在简单场景中减少不必要的推理 **负样本惩罚的精巧设计**:惩罚不是无限制的——它在一个有界的 L2 区域内激活。如果模型生成的轨迹离负样本很远,惩罚为 0(不需要惩罚);如果很近,惩罚线性增大。这避免了将策略推向极端偏离的轨迹。 **推理-动作一致性检查**:还有一个巧妙的规则——如果模型的推理文本说"左转"但预测的轨迹是"直行",则施加固定惩罚。这确保了模型"说到做到"。 ### mReasoning 数据集 SpanVLA 还贡献了一个新的驾驶推理数据集 **mReasoning**: - **30K 复杂场景**:来自拉斯维加斯、波士顿、匹兹堡、新加坡的真实驾驶日志 - 聚焦长尾场景:变道、车道偏移、弱势道路使用者、施工区域、停车标志 - 使用 Gemini-3-Pro 自动生成 CoT 标注,人工质检准确率 80.2% - **3K + 3K 负样本-恢复样本**:据作者所知,这是首个包含真实世界负样本-恢复样本的驾驶数据集 ## 实验结果 ### NAVSIM v1(navtest) | 方法 | PDMS ↑ | NC ↑ | DAC ↑ | EP ↑ | |------|--------|------|-------|------| | DiffusionDrive | 88.1 | 98.2 | 96.2 | 82.2 | | AutoVLA | 89.1 | 98.4 | 95.6 | 81.9 | | **SpanVLA (Post-RFT)** | **90.3** | **99.1** | 97.1 | **86.3** | SpanVLA 在 PDMS 上达到 SOTA,尤其在 Ego Progress(行程效率)上大幅领先(86.3 vs 82.2)。 ### NAVSIM v2(navhard,高难度场景) | 方法 | EPDMS ↑ | NC ↑ | DAC ↑ | |------|---------|------|-------| | RAP | 36.9 | 97.1 | 94.4 | | **SpanVLA** | **40.1** | **98.4** | 94.3 | 在高难度场景中,SpanVLA 的 EPDMS 比第二名高出 3.2 个点。 ### 推理效率 | 方法 | 轨迹生成时间 (50 航点) | |------|----------------------| | AutoVLA(自回归) | 1.72s | | **SpanVLA(流匹配)** | **0.08s** | **快了 21.5 倍**,或者说延迟降低了 **95%**。 ## 消融实验的关键发现 1. **正+负+恢复 > 正+负 > 正+恢复 > 仅正**:三种样本的组合效果最好 2. **先正样本预热,再混合训练**:直接混合训练不如先做 2K 步正样本预热 3. **负样本比例不是越多越好**:3K 正 : 1K 负的比例最佳,继续增加负样本收益递减 4. **恢复样本替代部分负样本**:用 0.5K 恢复 + 0.5K 负样本替代 1K 负样本效果更好 ## 我的思考 SpanVLA 让我想到几个更广泛的趋势: **第一,"分而治之"正在成为 VLA 模型的主流范式。** AutoVLA 试图让一个大模型同时负责推理和动作生成,但延迟太高。SpanVLA、Alpamayo、ReCogDrive 都在走"大模型推理 + 小专家执行"的路线。这和人类驾驶很像——你的大脑负责判断"该左转了",但方向盘的操作是肌肉记忆,不需要逐帧思考。 **第二,"负样本学习"在自动驾驶中被严重低估。** 在 NLP 中,RLHF 已经是标配——模型需要知道什么是"坏"的回答。但在自动驾驶中,大家还在主要依赖模仿学习。SpanVLA 证明了负样本和恢复样本的价值,这可能会成为一个新的研究方向。 **第三,流匹配正在取代扩散模型成为动作生成的首选。** 从随机噪声去噪(扩散/流匹配)到从历史轨迹变换(SpanVLA),这个转变的核心是:**利用问题的结构来减少搜索空间**。自动驾驶的轨迹不是随机的——它受到物理约束和历史惯性的强烈影响。从历史轨迹出发,比从随机噪声出发,天然就更接近正确答案。 **第四,1.5 Hz 的推理频率仍然不够。** 论文坦诚地指出,当前 0.67 秒的总推理时间(约 1.5 Hz)距离实时部署还有差距。Alpamayo 在硬件优化后可以达到 1.75ms/token,而 SpanVLA 当前是 33ms/token。这说明算法创新和工程优化是两条需要并行的路。 --- > **论文**: [SpanVLA: Efficient Action Bridging and Learning from Negative-Recovery Samples for Vision-Language-Action Model](https://arxiv.org/abs/2604.19710) > **项目页**: [spanvla.github.io](https://spanvla.github.io/) > **作者**: Zewei Zhou, Ruining Yang, Xuewei Qi, Yiluan Guo, Sherry X. Chen, Tao Feng, Kateryna Pistunova, Yishan Shen, Lili Su, Jiaqi Ma (UCLA, Motional, Northeastern) > **代码**: 暂未开源
登录