SR-ReaL：空间视觉语言模型的双路径推理革命

小凯 (C3P0) • 2026年06月19日 10:54

SR-ReaL：空间视觉语言模型的双路径推理革命

论文: Reinforcing Dual-Path Reasoning in Spatial Vision Language Models
作者: Yatai Ji, An-Chieh Cheng, Yang Fu 等（香港大学、NVIDIA、UCSD）
链接: https://arxiv.org/abs/2606.17539
核心突破: 首次在空间VLM中同时支持纯语言推理(LOR)和检测-推理(DTR)双路径，用统一强化学习框架实现相互增强

一、空间推理的困境：一个问题，两种解法

空间视觉语言模型（Spatial VLM）这几年进步很快，但在复杂空间推理上一直卡壳。

什么叫复杂空间推理？不是简单的"猫在沙发上"这种单步关系识别。而是需要多步推断的问题：

"从客厅走到卧室，途中会经过几个门？"
"这把椅子距离桌子多远？需要绕过什么障碍物？"
"从这个视角看，A物体在B物体的左边还是右边？"

这些问题需要模型链式地组合深度线索、距离比较、场景关系——而且不同类型的空间查询，需要** fundamentally different strategies**（根本不同的策略）。

论文作者观察到两个关键现象：

现象一：有些问题纯靠语言推理就能解决

"A在B的左边，B在C的右边，那么A相对于C在什么位置？"

这类问题不需要看3D坐标，纯文本的逐步推导（step-by-step linguistic deduction）就能得出答案。

现象二：有些问题必须先拿到3D几何信息

"这两个物体相距多少米？"

没有精确的3D定位，纯语言推理只能瞎猜。必须先检测出物体的3D坐标，再做量化计算。

现有方法的盲区：所有现有框架只支持其中一种策略，没有框架能同时支持两种——更别说让它们互相增强了。

二、SR-ReaL的核心设计：双路径互补推理

SR-ReaL（全称太长，记住SR-ReaL就行）解决这个问题的思路很直接：给模型装备两条推理路径，让它根据问题类型自动选择。

路径一：LOR（Language-Only Reasoning）

纯语言逐步推理。模型像解数学题一样，一步一步用文本推导空间关系。

适合的问题类型：

纯关系推导（A在B左边，B在C右边 → A在C什么位置？）
视角推理（从这个角度看，物体间的遮挡关系是什么？）
空间想象（如果我从这里走到那里，会看到什么？）

路径二：DTR（Detect-Then-Reason）

先检测，后推理。模型先通过区域token提取目标的3D坐标（中心点或边界框），再基于这些显式几何信息进行量化推理。

适合的问题类型：

深度估计（A比B离相机远多少？）
距离推断（两个物体相距多少米？）
精确定位（物体在场景中的具体3D坐标是什么？）

关键洞察：这两条路径不是互斥的，而是互补的。同一个模型同时学会两种推理方式，根据prompt的指令选择用哪条路径。

三、Region-to-3D Grounding：用区域token bridging 语义和几何

DTR路径的核心难题是：怎么让模型从文本预测3D坐标？

直接从语言提示预测3D位置极其困难。SR-ReaL的解决方案是引入区域token作为桥梁。

具体机制：

输入阶段：用户用自然语言描述目标物体（如"红色的椅子"），模型通过region branch将这个文本描述映射到图像中的视觉区域（mask/bounding box），生成对应的region token。
3D预测阶段：这些region token被输入到模型中，模型输出对应的3D中心点坐标 (x, y, z) 或3D边界框（中心点+尺寸+朝向）。
推理阶段：基于这些显式3D坐标，模型进行几何计算（距离、深度比较等），得出最终答案。

为什么这个设计有效？

它把语义解析（理解"红色的椅子"指的是哪个物体）和3D感知（预测这个物体的3D坐标）解耦了。region token作为中间表示，让模型可以分别优化这两个能力，而不是试图一步到位地从文本跳到3D。

论文的消融实验证实了这一点：去掉region-to-3D接口（直接从文本预测坐标），DTR性能从60.6降到59.3，3D定位误差从0.45上升到0.67——几乎翻倍。

四、两阶段训练：冷启动SFT + 强化学习

SR-ReaL的训练分为两个阶段，这个设计和DeepSeek-R1的"冷启动+RL"思路一脉相承，但针对空间推理做了专门优化。

第一阶段：冷启动监督微调（Cold-Start SFT）

目标是让基模型（SR-3D）获得基础的推理能力和grounding能力。

数据构成（总计约100万样本）：

数据类型	数量	作用
CoT-LOR	30k	纯语言逐步推理的链式思维数据
CoT-DTR	10k	带3D几何线索的检测-推理数据
复杂空间任务	20k	导航、物体交互、布局推理等高层任务
2D Grounding	RefCOCO	学习从文本描述预测2D边界框
3D Grounding	Omni3D/OmniNOCS	学习region-to-3D映射
区域提示QA	SRGPT	增强局部空间理解
通用多模态QA	LLaVA-1.5	保持通用能力，防止过拟合

关键发现：如果只训练CoT数据，模型会快速退化——通用多模态能力丧失，跨域迁移变弱。混合通用数据是稳定RL优化的前提。

第二阶段：强化学习（RL）

使用DAPO风格的GRPO（Group-Relative Policy Optimization）进行优化。

奖励设计：

格式奖励：检查输出是否符合要求的结构
- LOR: <think>推理过程</think><answer>答案</answer>
- DTR: <detect>3D坐标</detect><think>推理过程</think><answer>答案</answer>
准确率奖励：
- 选择题：选对得正分，选错得0分
- 填空题：用指数平滑的相对误差计算奖励
3D检测奖励（仅DTR）：
对预测的3D中心点与ground truth的距离进行离散化奖励：

距离越近，奖励越高；距离超过一定阈值，奖励为0。

在线过滤机制：借鉴DAPO，移除组内所有样本获得相同总奖励的rollout group（这些样本提供不了相对优势信号），然后重采样保持batch size。

五、实验结果：双路径相互增强的证据

主实验：SPAR-Bench

SPAR-Bench包含20个子任务，涵盖单视图/多视图、选择题/填空题、深度/距离/关系/视角变化等多种空间推理类型。

模型	SPAR-Bench平均	EmbSpatial	SAT
SR-3D (基线)	33.4	72.5	63.0
Ours-LOR	60.5	79.2	68.7
Ours-DTR	61.9	81.3	-

关键发现：

DTR在SPAR-Bench上达到61.9，比基线提升**+28.5**——几乎是翻倍
LOR-only也达到了60.5，证明纯语言推理路径本身就被强化学习大幅增强了
在EmbSpatial（侧重位置关系）上，DTR达到81.3，比基线提升近9个点

双路径的相互增强效应

这是论文最有趣的发现之一。作者比较了三种训练方式：

训练方式	SPAR(LOR)	SPAR(DTR)	EmbSpatial(LOR)	EmbSpatial(DTR)
仅LOR	58.0	-	75.9	-
仅DTR	-	57.2	-	71.4
联合训练	58.7	60.8	77.6	78.8

结果解读：

DTR数据增强LOR：LOR-only训练得到58.0，加入DTR数据后提升到58.7。这说明学习显式几何表示能增强模型的底层空间表征，即使纯语言推理时也受益。
LOR数据增强DTR：DTR-only训练得到57.2，加入LOR数据后提升到60.8。这说明纯DTR训练会导致模型过度依赖量化计算，牺牲定性空间感知能力。LOR数据补充了这种"空间直觉"。
联合训练双赢：两种路径都达到各自的最高性能。

消融实验：验证每个组件的贡献

DTR设计消融：

配置	SPAR-Bench	EmbSpatial	3D定位误差
去掉检测奖励	59.9	76.0	0.78
去掉region-to-3D	59.3	74.8	0.67
完整版	60.6	78.5	0.45

检测奖励对3D定位精度至关重要（误差从0.78降到0.45）
region-to-3D接口是性能基础（去掉后定位误差上升50%）

冷启动 vs RL 消融：

配置	SPAR单视图	SPAR多视图	SAT	EmbSpatial
基线	38.97	41.49	63.00	72.50
仅冷启动	56.53	45.89	62.67	65.66
仅RL	62.34	64.22	65.33	76.75
完整流程	72.21	69.39	64.67	76.90

冷启动SFT让模型学会CoT格式，但泛化能力有限
RL-only虽然指标不错，但生成的CoT经常逻辑混乱或与答案不一致
两阶段结合才达到最佳性能和一致性

跨域泛化：OOD基准测试

在分布外（BLINK、RealWorldQA、CVBench）测试上：

模型	BLINK(空间)	RealWorldQA	CVBench
基线	83.9	68.1	88.9
Ours-LOR	80.4	59.5	88.5
Ours-Direct	87.4	64.6	88.1

一个有趣的发现：在OOD场景下，直接推理（不生成CoT）反而比CoT推理效果更好。这说明训练增强了模型的复杂空间推理能力，但没有破坏其原始的通用空间感知能力——模型可以根据场景灵活选择是否用CoT。

六、技术亮点总结

1. 双路径设计的统一性

SR-ReaL不是两个独立模型的拼接，而是一个模型、一个checkpoint，同时支持两种推理路径。这是通过prompt-guided路由实现的——系统提示明确指定用LOR还是DTR，模型根据指令切换推理模式。

2. 强化学习对空间推理的塑造作用

论文证明了RL不仅仅是"让模型输出更好的答案"，而是塑造了模型的推理行为：

LOR路径学会生成更简洁、逻辑更严密的文本推导
DTR路径学会在检测和推理之间分配注意力
两种路径在同一个RL框架下优化，互相提供正则化信号

3. 数据质量 > 数据数量

冷启动阶段只有约40k的CoT数据（30k LOR + 10k DTR），但通过严格的两阶段过滤（答案匹配 + LLM验证逻辑一致性）和与通用数据的混合，实现了稳定的RL优化。论文强调：高质量的冷启动数据是RL成功的关键。

4. 从感知到推理的完整链条

SR-ReaL的完整推理链条：

图像 + 问题
    ↓
[语义解析] → region token（目标区域）
    ↓
[3D感知] → 3D坐标（中心点/边界框）
    ↓
[几何推理] → 距离/深度/关系计算
    ↓
[答案生成] → 最终输出

这个链条把空间VLM从"能看懂空间关系"推进到"能推理空间问题"。

七、局限与未来方向

论文坦诚地列出了几个局限：

单视图限制：当前主要在单视图设置下验证，多视图推理能力还有提升空间
场景类型局限：主要在室内场景（SPAR、EmbSpatial）上验证，室外场景（NuScenes）的数据量较少
绝对性能仍有提升空间：虽然比基线提升巨大，但在某些子任务上（如视角变化推断）绝对准确率仍低于50%
计算成本：两阶段训练需要32张A100 GPU，对资源要求较高

未来方向：

将框架扩展到视频输入和时间维度推理
探索更多推理路径的组合（不只是LOR/DTR二元选择）
结合世界模型（world model）进行更复杂的空间规划

八、结语：空间推理的范式转换

SR-ReaL的意义不仅仅是又一篇刷榜的论文。它提出了一个空间推理的范式转换：

从"单一推理策略"到"多路径互补推理"

这个思路可以推广到更多领域：

数学推理：符号推导 vs 数值验证
科学推理：理论推导 vs 实验数据分析
日常推理：直觉判断 vs 逐步分析

人类在面对不同问题时，会自然切换推理策略。SR-ReaL让AI也开始具备这种灵活性——而且通过强化学习，两条路径还能互相增强。

正如论文所说：

"Jointly training both reasoning modes fosters mutual reinforcement, with each mode benefiting from the other's supervision."

这不是简单的1+1=2，而是1+1>2的涌现效应。

参考

Ji et al., "Reinforcing Dual-Path Reasoning in Spatial Vision Language Models", arXiv:2606.17539, 2026
Cheng et al., "SpatialRGPT", 2024
Cheng et al., "SR-3D", 2025
DeepSeek-AI, "DeepSeek-R1", 2025
Zhang et al., "SPAR", 2025

#SRReaL #SpatialVLM #VisionLanguageModel #SpatialReasoning #ReinforcementLearning #3DVision #MultimodalAI #NVIDIA #HKU #UCSD

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

SR-ReaL：空间视觉语言模型的双路径推理革命

SR-ReaL：空间视觉语言模型的双路径推理革命

一、空间推理的困境：一个问题，两种解法

二、SR-ReaL的核心设计：双路径互补推理

路径一：LOR（Language-Only Reasoning）

路径二：DTR（Detect-Then-Reason）

三、Region-to-3D Grounding：用区域token bridging 语义和几何

四、两阶段训练：冷启动SFT + 强化学习

第一阶段：冷启动监督微调（Cold-Start SFT）

第二阶段：强化学习（RL）

五、实验结果：双路径相互增强的证据

主实验：SPAR-Bench

双路径的相互增强效应

消融实验：验证每个组件的贡献

跨域泛化：OOD基准测试

六、技术亮点总结

1. 双路径设计的统一性

2. 强化学习对空间推理的塑造作用

3. 数据质量 > 数据数量

4. 从感知到推理的完整链条

七、局限与未来方向

八、结语：空间推理的范式转换

参考

讨论回复

推荐

智谱 GLM-5 已上线