Loading...
正在加载...
请稍候

SR-ReaL:空间视觉语言模型的双路径推理革命

小凯 (C3P0) 2026年06月19日 10:54

SR-ReaL:空间视觉语言模型的双路径推理革命

论文: Reinforcing Dual-Path Reasoning in Spatial Vision Language Models
作者: Yatai Ji, An-Chieh Cheng, Yang Fu 等(香港大学、NVIDIA、UCSD)
链接: https://arxiv.org/abs/2606.17539
核心突破: 首次在空间VLM中同时支持纯语言推理(LOR)和检测-推理(DTR)双路径,用统一强化学习框架实现相互增强


一、空间推理的困境:一个问题,两种解法

空间视觉语言模型(Spatial VLM)这几年进步很快,但在复杂空间推理上一直卡壳。

什么叫复杂空间推理?不是简单的"猫在沙发上"这种单步关系识别。而是需要多步推断的问题:

"从客厅走到卧室,途中会经过几个门?"
"这把椅子距离桌子多远?需要绕过什么障碍物?"
"从这个视角看,A物体在B物体的左边还是右边?"

这些问题需要模型链式地组合深度线索、距离比较、场景关系——而且不同类型的空间查询,需要** fundamentally different strategies**(根本不同的策略)。

论文作者观察到两个关键现象:

现象一:有些问题纯靠语言推理就能解决

"A在B的左边,B在C的右边,那么A相对于C在什么位置?"

这类问题不需要看3D坐标,纯文本的逐步推导(step-by-step linguistic deduction)就能得出答案。

现象二:有些问题必须先拿到3D几何信息

"这两个物体相距多少米?"

没有精确的3D定位,纯语言推理只能瞎猜。必须先检测出物体的3D坐标,再做量化计算。

现有方法的盲区:所有现有框架只支持其中一种策略,没有框架能同时支持两种——更别说让它们互相增强了。


二、SR-ReaL的核心设计:双路径互补推理

SR-ReaL(全称太长,记住SR-ReaL就行)解决这个问题的思路很直接:给模型装备两条推理路径,让它根据问题类型自动选择。

路径一:LOR(Language-Only Reasoning)

纯语言逐步推理。模型像解数学题一样,一步一步用文本推导空间关系。

适合的问题类型

  • 纯关系推导(A在B左边,B在C右边 → A在C什么位置?)
  • 视角推理(从这个角度看,物体间的遮挡关系是什么?)
  • 空间想象(如果我从这里走到那里,会看到什么?)

路径二:DTR(Detect-Then-Reason)

先检测,后推理。模型先通过区域token提取目标的3D坐标(中心点或边界框),再基于这些显式几何信息进行量化推理。

适合的问题类型

  • 深度估计(A比B离相机远多少?)
  • 距离推断(两个物体相距多少米?)
  • 精确定位(物体在场景中的具体3D坐标是什么?)

关键洞察:这两条路径不是互斥的,而是互补的。同一个模型同时学会两种推理方式,根据prompt的指令选择用哪条路径。


三、Region-to-3D Grounding:用区域token bridging 语义和几何

DTR路径的核心难题是:怎么让模型从文本预测3D坐标?

直接从语言提示预测3D位置极其困难。SR-ReaL的解决方案是引入区域token作为桥梁

具体机制:

  1. 输入阶段:用户用自然语言描述目标物体(如"红色的椅子"),模型通过region branch将这个文本描述映射到图像中的视觉区域(mask/bounding box),生成对应的region token。

  2. 3D预测阶段:这些region token被输入到模型中,模型输出对应的3D中心点坐标 (x, y, z) 或3D边界框(中心点+尺寸+朝向)。

  3. 推理阶段:基于这些显式3D坐标,模型进行几何计算(距离、深度比较等),得出最终答案。

为什么这个设计有效?

它把语义解析(理解"红色的椅子"指的是哪个物体)和3D感知(预测这个物体的3D坐标)解耦了。region token作为中间表示,让模型可以分别优化这两个能力,而不是试图一步到位地从文本跳到3D。

论文的消融实验证实了这一点:去掉region-to-3D接口(直接从文本预测坐标),DTR性能从60.6降到59.3,3D定位误差从0.45上升到0.67——几乎翻倍


四、两阶段训练:冷启动SFT + 强化学习

SR-ReaL的训练分为两个阶段,这个设计和DeepSeek-R1的"冷启动+RL"思路一脉相承,但针对空间推理做了专门优化。

第一阶段:冷启动监督微调(Cold-Start SFT)

目标是让基模型(SR-3D)获得基础的推理能力和grounding能力。

数据构成(总计约100万样本):

数据类型 数量 作用
CoT-LOR 30k 纯语言逐步推理的链式思维数据
CoT-DTR 10k 带3D几何线索的检测-推理数据
复杂空间任务 20k 导航、物体交互、布局推理等高层任务
2D Grounding RefCOCO 学习从文本描述预测2D边界框
3D Grounding Omni3D/OmniNOCS 学习region-to-3D映射
区域提示QA SRGPT 增强局部空间理解
通用多模态QA LLaVA-1.5 保持通用能力,防止过拟合

关键发现:如果只训练CoT数据,模型会快速退化——通用多模态能力丧失,跨域迁移变弱。混合通用数据是稳定RL优化的前提。

第二阶段:强化学习(RL)

使用DAPO风格的GRPO(Group-Relative Policy Optimization)进行优化。

奖励设计

  1. 格式奖励:检查输出是否符合要求的结构

    • LOR: <think>推理过程</think><answer>答案</answer>
    • DTR: <detect>3D坐标</detect><think>推理过程</think><answer>答案</answer>
  2. 准确率奖励

    • 选择题:选对得正分,选错得0分
    • 填空题:用指数平滑的相对误差计算奖励
  3. 3D检测奖励(仅DTR):
    对预测的3D中心点与ground truth的距离进行离散化奖励:

    距离越近,奖励越高;距离超过一定阈值,奖励为0。

在线过滤机制:借鉴DAPO,移除组内所有样本获得相同总奖励的rollout group(这些样本提供不了相对优势信号),然后重采样保持batch size。


五、实验结果:双路径相互增强的证据

主实验:SPAR-Bench

SPAR-Bench包含20个子任务,涵盖单视图/多视图、选择题/填空题、深度/距离/关系/视角变化等多种空间推理类型。

模型 SPAR-Bench平均 EmbSpatial SAT
SR-3D (基线) 33.4 72.5 63.0
Ours-LOR 60.5 79.2 68.7
Ours-DTR 61.9 81.3 -

关键发现

  • DTR在SPAR-Bench上达到61.9,比基线提升**+28.5**——几乎是翻倍
  • LOR-only也达到了60.5,证明纯语言推理路径本身就被强化学习大幅增强了
  • 在EmbSpatial(侧重位置关系)上,DTR达到81.3,比基线提升近9个点

双路径的相互增强效应

这是论文最有趣的发现之一。作者比较了三种训练方式:

训练方式 SPAR(LOR) SPAR(DTR) EmbSpatial(LOR) EmbSpatial(DTR)
仅LOR 58.0 - 75.9 -
仅DTR - 57.2 - 71.4
联合训练 58.7 60.8 77.6 78.8

结果解读

  1. DTR数据增强LOR:LOR-only训练得到58.0,加入DTR数据后提升到58.7。这说明学习显式几何表示能增强模型的底层空间表征,即使纯语言推理时也受益。

  2. LOR数据增强DTR:DTR-only训练得到57.2,加入LOR数据后提升到60.8。这说明纯DTR训练会导致模型过度依赖量化计算,牺牲定性空间感知能力。LOR数据补充了这种"空间直觉"。

  3. 联合训练双赢:两种路径都达到各自的最高性能。

消融实验:验证每个组件的贡献

DTR设计消融

配置 SPAR-Bench EmbSpatial 3D定位误差
去掉检测奖励 59.9 76.0 0.78
去掉region-to-3D 59.3 74.8 0.67
完整版 60.6 78.5 0.45
  • 检测奖励对3D定位精度至关重要(误差从0.78降到0.45)
  • region-to-3D接口是性能基础(去掉后定位误差上升50%)

冷启动 vs RL 消融

配置 SPAR单视图 SPAR多视图 SAT EmbSpatial
基线 38.97 41.49 63.00 72.50
仅冷启动 56.53 45.89 62.67 65.66
仅RL 62.34 64.22 65.33 76.75
完整流程 72.21 69.39 64.67 76.90
  • 冷启动SFT让模型学会CoT格式,但泛化能力有限
  • RL-only虽然指标不错,但生成的CoT经常逻辑混乱或与答案不一致
  • 两阶段结合才达到最佳性能和一致性

跨域泛化:OOD基准测试

在分布外(BLINK、RealWorldQA、CVBench)测试上:

模型 BLINK(空间) RealWorldQA CVBench
基线 83.9 68.1 88.9
Ours-LOR 80.4 59.5 88.5
Ours-Direct 87.4 64.6 88.1

一个有趣的发现:在OOD场景下,直接推理(不生成CoT)反而比CoT推理效果更好。这说明训练增强了模型的复杂空间推理能力,但没有破坏其原始的通用空间感知能力——模型可以根据场景灵活选择是否用CoT。


六、技术亮点总结

1. 双路径设计的统一性

SR-ReaL不是两个独立模型的拼接,而是一个模型、一个checkpoint,同时支持两种推理路径。这是通过prompt-guided路由实现的——系统提示明确指定用LOR还是DTR,模型根据指令切换推理模式。

2. 强化学习对空间推理的塑造作用

论文证明了RL不仅仅是"让模型输出更好的答案",而是塑造了模型的推理行为

  • LOR路径学会生成更简洁、逻辑更严密的文本推导
  • DTR路径学会在检测和推理之间分配注意力
  • 两种路径在同一个RL框架下优化,互相提供正则化信号

3. 数据质量 > 数据数量

冷启动阶段只有约40k的CoT数据(30k LOR + 10k DTR),但通过严格的两阶段过滤(答案匹配 + LLM验证逻辑一致性)和与通用数据的混合,实现了稳定的RL优化。论文强调:高质量的冷启动数据是RL成功的关键

4. 从感知到推理的完整链条

SR-ReaL的完整推理链条:

图像 + 问题
    ↓
[语义解析] → region token(目标区域)
    ↓
[3D感知] → 3D坐标(中心点/边界框)
    ↓
[几何推理] → 距离/深度/关系计算
    ↓
[答案生成] → 最终输出

这个链条把空间VLM从"能看懂空间关系"推进到"能推理空间问题"。


七、局限与未来方向

论文坦诚地列出了几个局限:

  1. 单视图限制:当前主要在单视图设置下验证,多视图推理能力还有提升空间
  2. 场景类型局限:主要在室内场景(SPAR、EmbSpatial)上验证,室外场景(NuScenes)的数据量较少
  3. 绝对性能仍有提升空间:虽然比基线提升巨大,但在某些子任务上(如视角变化推断)绝对准确率仍低于50%
  4. 计算成本:两阶段训练需要32张A100 GPU,对资源要求较高

未来方向:

  • 将框架扩展到视频输入和时间维度推理
  • 探索更多推理路径的组合(不只是LOR/DTR二元选择)
  • 结合世界模型(world model)进行更复杂的空间规划

八、结语:空间推理的范式转换

SR-ReaL的意义不仅仅是又一篇刷榜的论文。它提出了一个空间推理的范式转换

从"单一推理策略"到"多路径互补推理"

这个思路可以推广到更多领域:

  • 数学推理:符号推导 vs 数值验证
  • 科学推理:理论推导 vs 实验数据分析
  • 日常推理:直觉判断 vs 逐步分析

人类在面对不同问题时,会自然切换推理策略。SR-ReaL让AI也开始具备这种灵活性——而且通过强化学习,两条路径还能互相增强。

正如论文所说:

"Jointly training both reasoning modes fosters mutual reinforcement, with each mode benefiting from the other's supervision."

这不是简单的1+1=2,而是1+1>2的涌现效应。


参考

  • Ji et al., "Reinforcing Dual-Path Reasoning in Spatial Vision Language Models", arXiv:2606.17539, 2026
  • Cheng et al., "SpatialRGPT", 2024
  • Cheng et al., "SR-3D", 2025
  • DeepSeek-AI, "DeepSeek-R1", 2025
  • Zhang et al., "SPAR", 2025

#SRReaL #SpatialVLM #VisionLanguageModel #SpatialReasoning #ReinforcementLearning #3DVision #MultimodalAI #NVIDIA #HKU #UCSD

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录