SR-ReaL:空间视觉语言模型的双路径推理革命
论文: Reinforcing Dual-Path Reasoning in Spatial Vision Language Models
作者: Yatai Ji, An-Chieh Cheng, Yang Fu 等(香港大学、NVIDIA、UCSD)
链接: https://arxiv.org/abs/2606.17539
核心突破: 首次在空间VLM中同时支持纯语言推理(LOR)和检测-推理(DTR)双路径,用统一强化学习框架实现相互增强
一、空间推理的困境:一个问题,两种解法
空间视觉语言模型(Spatial VLM)这几年进步很快,但在复杂空间推理上一直卡壳。
什么叫复杂空间推理?不是简单的"猫在沙发上"这种单步关系识别。而是需要多步推断的问题:
"从客厅走到卧室,途中会经过几个门?"
"这把椅子距离桌子多远?需要绕过什么障碍物?"
"从这个视角看,A物体在B物体的左边还是右边?"
这些问题需要模型链式地组合深度线索、距离比较、场景关系——而且不同类型的空间查询,需要** fundamentally different strategies**(根本不同的策略)。
论文作者观察到两个关键现象:
现象一:有些问题纯靠语言推理就能解决
"A在B的左边,B在C的右边,那么A相对于C在什么位置?"
这类问题不需要看3D坐标,纯文本的逐步推导(step-by-step linguistic deduction)就能得出答案。
现象二:有些问题必须先拿到3D几何信息
"这两个物体相距多少米?"
没有精确的3D定位,纯语言推理只能瞎猜。必须先检测出物体的3D坐标,再做量化计算。
现有方法的盲区:所有现有框架只支持其中一种策略,没有框架能同时支持两种——更别说让它们互相增强了。
二、SR-ReaL的核心设计:双路径互补推理
SR-ReaL(全称太长,记住SR-ReaL就行)解决这个问题的思路很直接:给模型装备两条推理路径,让它根据问题类型自动选择。
路径一:LOR(Language-Only Reasoning)
纯语言逐步推理。模型像解数学题一样,一步一步用文本推导空间关系。
适合的问题类型:
- 纯关系推导(A在B左边,B在C右边 → A在C什么位置?)
- 视角推理(从这个角度看,物体间的遮挡关系是什么?)
- 空间想象(如果我从这里走到那里,会看到什么?)
路径二:DTR(Detect-Then-Reason)
先检测,后推理。模型先通过区域token提取目标的3D坐标(中心点或边界框),再基于这些显式几何信息进行量化推理。
适合的问题类型:
- 深度估计(A比B离相机远多少?)
- 距离推断(两个物体相距多少米?)
- 精确定位(物体在场景中的具体3D坐标是什么?)
关键洞察:这两条路径不是互斥的,而是互补的。同一个模型同时学会两种推理方式,根据prompt的指令选择用哪条路径。
三、Region-to-3D Grounding:用区域token bridging 语义和几何
DTR路径的核心难题是:怎么让模型从文本预测3D坐标?
直接从语言提示预测3D位置极其困难。SR-ReaL的解决方案是引入区域token作为桥梁。
具体机制:
-
输入阶段:用户用自然语言描述目标物体(如"红色的椅子"),模型通过region branch将这个文本描述映射到图像中的视觉区域(mask/bounding box),生成对应的region token。
-
3D预测阶段:这些region token被输入到模型中,模型输出对应的3D中心点坐标
(x, y, z)或3D边界框(中心点+尺寸+朝向)。 -
推理阶段:基于这些显式3D坐标,模型进行几何计算(距离、深度比较等),得出最终答案。
为什么这个设计有效?
它把语义解析(理解"红色的椅子"指的是哪个物体)和3D感知(预测这个物体的3D坐标)解耦了。region token作为中间表示,让模型可以分别优化这两个能力,而不是试图一步到位地从文本跳到3D。
论文的消融实验证实了这一点:去掉region-to-3D接口(直接从文本预测坐标),DTR性能从60.6降到59.3,3D定位误差从0.45上升到0.67——几乎翻倍。
四、两阶段训练:冷启动SFT + 强化学习
SR-ReaL的训练分为两个阶段,这个设计和DeepSeek-R1的"冷启动+RL"思路一脉相承,但针对空间推理做了专门优化。
第一阶段:冷启动监督微调(Cold-Start SFT)
目标是让基模型(SR-3D)获得基础的推理能力和grounding能力。
数据构成(总计约100万样本):
| 数据类型 | 数量 | 作用 |
|---|---|---|
| CoT-LOR | 30k | 纯语言逐步推理的链式思维数据 |
| CoT-DTR | 10k | 带3D几何线索的检测-推理数据 |
| 复杂空间任务 | 20k | 导航、物体交互、布局推理等高层任务 |
| 2D Grounding | RefCOCO | 学习从文本描述预测2D边界框 |
| 3D Grounding | Omni3D/OmniNOCS | 学习region-to-3D映射 |
| 区域提示QA | SRGPT | 增强局部空间理解 |
| 通用多模态QA | LLaVA-1.5 | 保持通用能力,防止过拟合 |
关键发现:如果只训练CoT数据,模型会快速退化——通用多模态能力丧失,跨域迁移变弱。混合通用数据是稳定RL优化的前提。
第二阶段:强化学习(RL)
使用DAPO风格的GRPO(Group-Relative Policy Optimization)进行优化。
奖励设计:
-
格式奖励:检查输出是否符合要求的结构
- LOR:
<think>推理过程</think><answer>答案</answer> - DTR:
<detect>3D坐标</detect><think>推理过程</think><answer>答案</answer>
- LOR:
-
准确率奖励:
- 选择题:选对得正分,选错得0分
- 填空题:用指数平滑的相对误差计算奖励
-
3D检测奖励(仅DTR):
对预测的3D中心点与ground truth的距离进行离散化奖励:距离越近,奖励越高;距离超过一定阈值,奖励为0。
在线过滤机制:借鉴DAPO,移除组内所有样本获得相同总奖励的rollout group(这些样本提供不了相对优势信号),然后重采样保持batch size。
五、实验结果:双路径相互增强的证据
主实验:SPAR-Bench
SPAR-Bench包含20个子任务,涵盖单视图/多视图、选择题/填空题、深度/距离/关系/视角变化等多种空间推理类型。
| 模型 | SPAR-Bench平均 | EmbSpatial | SAT |
|---|---|---|---|
| SR-3D (基线) | 33.4 | 72.5 | 63.0 |
| Ours-LOR | 60.5 | 79.2 | 68.7 |
| Ours-DTR | 61.9 | 81.3 | - |
关键发现:
- DTR在SPAR-Bench上达到61.9,比基线提升**+28.5**——几乎是翻倍
- LOR-only也达到了60.5,证明纯语言推理路径本身就被强化学习大幅增强了
- 在EmbSpatial(侧重位置关系)上,DTR达到81.3,比基线提升近9个点
双路径的相互增强效应
这是论文最有趣的发现之一。作者比较了三种训练方式:
| 训练方式 | SPAR(LOR) | SPAR(DTR) | EmbSpatial(LOR) | EmbSpatial(DTR) |
|---|---|---|---|---|
| 仅LOR | 58.0 | - | 75.9 | - |
| 仅DTR | - | 57.2 | - | 71.4 |
| 联合训练 | 58.7 | 60.8 | 77.6 | 78.8 |
结果解读:
-
DTR数据增强LOR:LOR-only训练得到58.0,加入DTR数据后提升到58.7。这说明学习显式几何表示能增强模型的底层空间表征,即使纯语言推理时也受益。
-
LOR数据增强DTR:DTR-only训练得到57.2,加入LOR数据后提升到60.8。这说明纯DTR训练会导致模型过度依赖量化计算,牺牲定性空间感知能力。LOR数据补充了这种"空间直觉"。
-
联合训练双赢:两种路径都达到各自的最高性能。
消融实验:验证每个组件的贡献
DTR设计消融:
| 配置 | SPAR-Bench | EmbSpatial | 3D定位误差 |
|---|---|---|---|
| 去掉检测奖励 | 59.9 | 76.0 | 0.78 |
| 去掉region-to-3D | 59.3 | 74.8 | 0.67 |
| 完整版 | 60.6 | 78.5 | 0.45 |
- 检测奖励对3D定位精度至关重要(误差从0.78降到0.45)
- region-to-3D接口是性能基础(去掉后定位误差上升50%)
冷启动 vs RL 消融:
| 配置 | SPAR单视图 | SPAR多视图 | SAT | EmbSpatial |
|---|---|---|---|---|
| 基线 | 38.97 | 41.49 | 63.00 | 72.50 |
| 仅冷启动 | 56.53 | 45.89 | 62.67 | 65.66 |
| 仅RL | 62.34 | 64.22 | 65.33 | 76.75 |
| 完整流程 | 72.21 | 69.39 | 64.67 | 76.90 |
- 冷启动SFT让模型学会CoT格式,但泛化能力有限
- RL-only虽然指标不错,但生成的CoT经常逻辑混乱或与答案不一致
- 两阶段结合才达到最佳性能和一致性
跨域泛化:OOD基准测试
在分布外(BLINK、RealWorldQA、CVBench)测试上:
| 模型 | BLINK(空间) | RealWorldQA | CVBench |
|---|---|---|---|
| 基线 | 83.9 | 68.1 | 88.9 |
| Ours-LOR | 80.4 | 59.5 | 88.5 |
| Ours-Direct | 87.4 | 64.6 | 88.1 |
一个有趣的发现:在OOD场景下,直接推理(不生成CoT)反而比CoT推理效果更好。这说明训练增强了模型的复杂空间推理能力,但没有破坏其原始的通用空间感知能力——模型可以根据场景灵活选择是否用CoT。
六、技术亮点总结
1. 双路径设计的统一性
SR-ReaL不是两个独立模型的拼接,而是一个模型、一个checkpoint,同时支持两种推理路径。这是通过prompt-guided路由实现的——系统提示明确指定用LOR还是DTR,模型根据指令切换推理模式。
2. 强化学习对空间推理的塑造作用
论文证明了RL不仅仅是"让模型输出更好的答案",而是塑造了模型的推理行为:
- LOR路径学会生成更简洁、逻辑更严密的文本推导
- DTR路径学会在检测和推理之间分配注意力
- 两种路径在同一个RL框架下优化,互相提供正则化信号
3. 数据质量 > 数据数量
冷启动阶段只有约40k的CoT数据(30k LOR + 10k DTR),但通过严格的两阶段过滤(答案匹配 + LLM验证逻辑一致性)和与通用数据的混合,实现了稳定的RL优化。论文强调:高质量的冷启动数据是RL成功的关键。
4. 从感知到推理的完整链条
SR-ReaL的完整推理链条:
图像 + 问题
↓
[语义解析] → region token(目标区域)
↓
[3D感知] → 3D坐标(中心点/边界框)
↓
[几何推理] → 距离/深度/关系计算
↓
[答案生成] → 最终输出
这个链条把空间VLM从"能看懂空间关系"推进到"能推理空间问题"。
七、局限与未来方向
论文坦诚地列出了几个局限:
- 单视图限制:当前主要在单视图设置下验证,多视图推理能力还有提升空间
- 场景类型局限:主要在室内场景(SPAR、EmbSpatial)上验证,室外场景(NuScenes)的数据量较少
- 绝对性能仍有提升空间:虽然比基线提升巨大,但在某些子任务上(如视角变化推断)绝对准确率仍低于50%
- 计算成本:两阶段训练需要32张A100 GPU,对资源要求较高
未来方向:
- 将框架扩展到视频输入和时间维度推理
- 探索更多推理路径的组合(不只是LOR/DTR二元选择)
- 结合世界模型(world model)进行更复杂的空间规划
八、结语:空间推理的范式转换
SR-ReaL的意义不仅仅是又一篇刷榜的论文。它提出了一个空间推理的范式转换:
从"单一推理策略"到"多路径互补推理"
这个思路可以推广到更多领域:
- 数学推理:符号推导 vs 数值验证
- 科学推理:理论推导 vs 实验数据分析
- 日常推理:直觉判断 vs 逐步分析
人类在面对不同问题时,会自然切换推理策略。SR-ReaL让AI也开始具备这种灵活性——而且通过强化学习,两条路径还能互相增强。
正如论文所说:
"Jointly training both reasoning modes fosters mutual reinforcement, with each mode benefiting from the other's supervision."
这不是简单的1+1=2,而是1+1>2的涌现效应。
参考
- Ji et al., "Reinforcing Dual-Path Reasoning in Spatial Vision Language Models", arXiv:2606.17539, 2026
- Cheng et al., "SpatialRGPT", 2024
- Cheng et al., "SR-3D", 2025
- DeepSeek-AI, "DeepSeek-R1", 2025
- Zhang et al., "SPAR", 2025
#SRReaL #SpatialVLM #VisionLanguageModel #SpatialReasoning #ReinforcementLearning #3DVision #MultimodalAI #NVIDIA #HKU #UCSD
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。