教自动驾驶「推理」:nuReasoning 如何填补长尾场景的认知空白
一个经典的长尾驾驶场景:前方路口,一辆外卖骑手突然从两辆停着的卡车之间窜出来。人类驾驶员会在零点几秒内做出一连串判断——骑手大概率会继续直行、他不会注意到我的车、我需要减速但不能急刹因为后面有车——然后平稳地避让。
这个过程中发生了什么?不是单纯的「感知→预测→规划」三段式流水线,而是一种推理:理解空间关系、推断他人意图、评估不同行动的后果。这种推理能力在 99% 的正常驾驶场景中几乎用不到,但在那 1% 的长尾场景中,它决定了生死。
UCLA 和 Motional 联合推出的 nuReasoning,正是为了填补这个认知空白。它不是一个感知数据集,也不是一个轨迹预测基准,而是第一个以推理为中心的大规模自动驾驶数据集和基准。
三种推理,三种认知维度
nuReasoning 的核心创新在于它定义了三种结构化的推理类型,对应三种不同的认知能力:
空间推理(Spatial Reasoning):理解场景中物体的空间关系。包括:
- 物体之间的距离和方位关系
- 运动状态(加速、减速、匀速)
- 潜在的交互冲突(谁会先到达路口?)
- 地图上下文(车道拓扑、人行横道位置)
标注方式很有意思:团队用 Gemini 3 Flash 作为 2D 检测器,在多视角图像中识别驾驶相关物体,然后通过几何投影和 IoU 匹配将 2D 检测结果与 3D 标注关联,最终生成以自车为中心的空间关系描述。
决策推理(Decision Reasoning):理解为什么做出某个驾驶决策。每个标注包含四个组件:
- 场景描述:当前交通环境的文字描述
- 关键要素:影响决策的核心因素(行人、信号灯、障碍物等)
- 驾驶决策:结构化的元动作(纵向:加速/减速/匀速;横向:左转/右转/直行/变道)
- 推理链:从观察到决策的逻辑推导过程
标注使用 Gemini 3.1 Pro 生成,并参考真实轨迹来对齐推理与实际驾驶行为。这确保了推理不是「事后诸葛亮」,而是与真实决策一致的思维过程。
反事实推理(Counterfactual Reasoning):评估「如果...会怎样」。包括:
- 如果自车采取不同行动会怎样?
- 如果其他道路使用者行为改变会怎样?
- 场景中哪些因素最关键?
反事实推理是三种类型中最有深度的。它要求模型不仅能理解当前场景,还能想象替代场景并评估后果——这正是人类驾驶员在复杂场景中快速排除危险选项的方式。
数据规模与质量
nuReasoning 包含 20,000 个 20 秒长的视频片段,覆盖多个城市,每个片段包含:
- 同步的多视角相机图像
- LiDAR 点云数据
- 高精地图
- 物体标注
- 人工验证的推理标注
所有推理标注都经过人工验证——VLM 生成的初始标注由人工审核和修正,确保质量。这是 nuReasoning 区别于纯 VLM 生成数据集的关键:它有真实的人类监督信号。
双重评估:推理 + 规划
nuReasoning 的另一个重要设计是双重评估协议:
推理评估:测试 VLM 在驾驶相关问答中的表现。包括:
- 3D 几何理解(物体的精确位置和运动)
- 未来运动估计(其他车辆会怎么走?)
- 决策制定(应该采取什么行动?)
- 反事实推理(如果...会怎样?)
评估指标包括坐标定位准确率、轨迹 L2 误差、轨迹命中率等。
规划评估:测试 VLA(Vision-Language-Action)模型在长尾场景中的规划质量。评估指标包括:
- 无责碰撞率
- 可行驶区域合规性
- 自车进度
- 舒适度
- 人类相似度
这种双重评估的设计哲学是:推理能力的提升应该转化为规划质量的改善。如果模型在推理问答中表现很好,但规划没有改善,那推理监督就没有实际价值。
关键实验发现
1. 微调显著提升推理能力。 在 nuReasoning 上微调的 Qwen3.5-9B 和 Qwen3-VL-8B 在驾驶特定问答上的表现大幅提升。坐标定位准确率从基线提升到 46.3%(Qwen3-VL-8B)和 52.2%(Qwen3.5-9B)。
2. 未来运动预测仍是瓶颈。 虽然微调大幅降低了轨迹 L2 误差,但严格的轨迹命中率仍然接近零。这意味着当前模型学会了「大致方向」,但无法精确预测未来轨迹。这是一个值得关注的开放问题。
3. 推理监督改善规划,即使推理时不用。 这是最有意义的发现:在 VLA 训练中加入推理监督(空间+决策+反事实),即使推理时禁用文本推理输出,规划质量仍然显著提升。这说明推理监督改变了模型的内部表征,让它学到了更好的场景理解,而不仅仅是学会了「说正确的话」。
4. 三种推理的互补性。 空间推理和决策推理各自提供强增益,反事实推理提供额外互补收益。三者结合效果最佳,说明不同类型的推理捕获了场景的不同方面。
5. 通用 VLM 在长尾场景中表现不佳。 Alpamayo-1.5 在零样本评估中表现远低于预期,暴露了通用 VLA 模型与长尾驾驶场景之间的领域差距。这进一步证明了专用推理数据集的必要性。
nuVLA:推理增强的驾驶模型
nuReasoning 还提出了 nuVLA,一个基于推理监督训练的 VLA 基线模型。nuVLA 的架构很直观:多视角多帧相机图像 + 驾驶指令 → VLM 编码 → 轨迹 DiT 生成未来规划轨迹。VLM 骨干网络用推理标注训练,轨迹 DiT 用真实轨迹监督,两者联合优化。
nuVLA 在规划基准上超越了所有竞争基线,证明了推理监督对下游规划的实际价值。
为什么 nuReasoning 重要?
nuReasoning 的意义在于它重新定义了自动驾驶数据集应该标注什么。
过去十年,自动驾驶数据集的标注重心从感知(物体检测、分割)到预测(轨迹预测)到规划(轨迹生成),但始终缺少一个维度:推理。我们标注了「那里有一辆车」,标注了「那辆车会往左转」,但没有标注「为什么我需要减速」和「如果我不减速会怎样」。
nuReasoning 填补了这个空白。它告诉我们:给模型推理监督,不仅能让它在问答中表现更好,还能让它在实际驾驶中做出更好的决策。推理不是锦上添花,而是安全驾驶的必要能力。
从更广的视角看,nuReasoning 代表了 AI 系统评估的一个趋势:从行为评估到认知评估。我们不再只问「模型做了什么」,而是问「模型为什么这么做」和「模型能不能想象替代方案」。这种评估范式的转变,对自动驾驶、机器人、医疗 AI 等安全关键领域都有深远影响。
论文信息:nuReasoning: A Reasoning-Centric Dataset and Benchmark for Long-Tail Autonomous Driving
作者:Zhiyu Huang, Johnson Liu, Rui Song, Zewei Zhou 等(UCLA / Motional)
arXiv:2605.31572
项目页:https://nureasoning.github.io