Thinking with Visual Grounding：让VLM"指给你看"它到底在看什么

> Zhang, J., Deng, Y., Chang, K.-W., Wang, W. *Thinking with Visual Grounding.* UCLA, arXiv:2606.16122, 2026.

---

一、VLM链式推理的"黑箱病"

多模态大模型的链式推理（Chain-of-Thought）有一个隐蔽但严重的缺陷：推理过程是纯文本的，看不见摸不着。

模型说"图中左边的红色球更大"——但你不知道它真的看了左边，还是只是在说一个统计上正确的答案。模型说"桌子上有三个苹果"——但你不知道它真的数了三个，还是训练数据里这类图通常有三个。

更危险的是：在VQA基准上，模型可以完全不看图，仅靠文本先验就答对相当一部分题目。这意味着链式推理的文本链条可能是"幻觉式自圆其说"——听起来合理，实际上与图像无关。

UCLA 这篇论文的核心主张：链式推理必须和视觉证据显式绑定。每一步推理，模型都要"指出来"它在看哪。

---

二、Visual Grounded 推理：不是"说"，是"指"

论文提出的格式很简洁：推理过程中，每提到一个视觉对象，就输出对应的坐标定位。

推理: "左边的红色球比右边的蓝色球大"
定位: [bbox: 0.12, 0.34, 0.28, 0.56]  [bbox: 0.62, 0.34, 0.78, 0.56]

两种模式：

点模式：输出一个点坐标 (x, y)，标记对象中心。适用于计数、存在性判断。
框模式：输出 bounding box [x1, y1, x2, y2]，标记对象范围。适用于空间关系、几何推理。

这不是后处理的可视化，而是推理本身的内在格式。模型在生成文本 token 的同时，必须生成对应的定位 token。

---

三、数据从哪里来？SAM3 自动合成流水线

最大的瓶颈是训练数据：需要大量"推理步骤 + 视觉定位"的配对数据。人工标注成本极高，而且难以覆盖各种场景。

论文的解决方案是全自动合成流水线（19k+数据，无需人工标注）：

步骤1：从开源VLM蒸馏正确推理轨迹

用能力较强的开源VLM（如Qwen2.5-VL）生成正确的推理轨迹。只保留答案正确的样本。

步骤2：LLM提取需要定位的对象

用LLM分析推理文本，提取出每一步需要视觉证据支持的对象名词（如"红色球"、"左边的桌子"）。

步骤3：SAM3智能代理生成掩码

将LLM提取的对象名和图像输入 SAM3（Segment Anything Model 3），SAM3 迭代生成高精度的目标掩码。这里用了"智能代理"的表述——SAM3 不是一次性分割，而是可以迭代修正、多目标推理的分割代理。

步骤4：转换为双格式标注

将 SAM3 掩码转换为：

点：掩码中心点
框：掩码外接矩形

数据规模

最终生成 19k+ 带视觉标注的推理轨迹，覆盖SFT和RL训练需求。

关键点：流水线是可扩展的。只要有新的图像和VQA数据，就可以自动合成新的训练数据。

---

四、Grounding 感知的强化学习

仅靠SFT不够。模型需要学会"什么时候该定位、定位到哪里"。论文在RL阶段设计了一个双重奖励。

奖励1：答案正确性

标准VLM RL奖励：最终答案与ground truth匹配。

奖励2：定位质量

这是论文的核心创新。设计了一个VLM对象路由匹配机制：

1. 模型生成定位（框或点） 2. 与真实标注（SAM3生成的掩码转换）匹配 3. 计算定位质量：

框模式：IoU（Intersection over Union）或中心点距离
点模式：点到掩码中心或边界的距离

联合优化目标：

L = L_answer + λ * L_grounding

为什么需要这个？ 因为仅靠答案正确性奖励，模型可能学会"文字游戏"——答对了但定位不准。显式的定位质量奖励强迫模型真正关注正确的视觉区域。

---

五、小模型奇迹：4B = 27B

论文最惊人的结果在空间推理：

模型	参数	计数任务	空间关系
基线VLM	4B	一般	较弱
同系列大模型	27B	较好	一般
本文模型（4B）	4B	接近27B	超越27B

4B参数的模型，在空间关系基准上超过同系列27B模型。

这说明什么？

定位能力不是"参数堆出来的"，而是结构先验（显式grounding格式）带来的
大模型可能在用"统计记忆"做空间推理，小模型被迫"真正看"反而更准
对于需要精确空间理解的任务（如机器人、自动驾驶），显式grounding比隐式表征更可靠

---

六、技术洞察：点 vs 框

为什么点模式在计数上更好？

计数只需要"有没有这个实例"，不需要知道边界在哪。点模式轻量、精确，避免框的冗余信息干扰。

为什么框模式在空间关系上更好？

"左边"、"右边"、"上面"需要感知物体的范围和相对几何。框提供了边界信息，模型可以计算空间关系（如中心点距离、重叠区域）。

两种模式互补

论文的实验表明，在空间推理上两者效果接近，但不同任务有各自的最佳模式。这提示了一个设计原则：根据下游任务选择grounding格式，而不是一刀切。

---

七、局限与追问

1. SAM3的依赖

数据合成流水线严重依赖 SAM3 的分割质量。如果 SAM3 对某个对象分割失败（如小目标、遮挡、模糊边界），整个训练样本就废了。论文没有讨论 SAM3 失败率对数据质量的影响。

2. 定位的粒度

当前只有点和框两种模式。对于更复杂的视觉推理（如"曲线的曲率"、"纹理的走向"），这两种模式可能不够。是否需要更精细的掩码级grounding？或者更高层次的语义区域（如"左上角区域"）？

3. 通用性验证

论文主要在空间推理和计数任务上验证。对于更抽象的VQA（如"为什么这个人看起来难过？"），grounding可能退化为"指人脸"这种 trivial 定位，是否还能提升性能？

4. 推理效率

每步推理都生成坐标，增加了输出长度。对于长推理链，token开销是否显著？论文没有报告推理速度对比。

---

八、总结：从"自说自话"到"指证如山"

这篇论文的核心贡献是让VLM的推理过程可验证。

三个要点： 1. 问题：纯文本链式推理是不可验证的——模型可以不看图就"说对" 2. 方案：Visual Grounded 推理格式——每步推理绑定显式坐标（点或框） 3. 训练：SAM3自动合成19k+数据 + 双重RL奖励（答案正确 + 定位质量）

最惊人的结果：4B模型凭借显式grounding结构，在空间推理上超越27B大模型。这证明了推理格式的先验设计比参数规模更重要。

对于任何做VQA、具身智能、视觉机器人的人来说，这篇论文的核心启示是：

> 不要只问模型"答案是什么"，还要问它"证据在哪里"——并且让它指出来。

---

参考

Zhang, J. et al. (2026). Thinking with Visual Grounding. *arXiv:2606.16122*. UCLA.
SAM3: https://github.com/facebookresearch/segment-anything
Qwen2.5-VL: https://huggingface.co/Qwen

#论文拆解 #视觉语言模型 #链式推理 #视觉定位 #多模态 #空间推理 #小模型 #SAM3 #小凯

Thinking with Visual Grounding：让VLM"指给你看"它到底在看什么

Thinking with Visual Grounding：让VLM"指给你看"它到底在看什么

一、VLM链式推理的"黑箱病"

二、Visual Grounded 推理：不是"说"，是"指"

三、数据从哪里来？SAM3 自动合成流水线

步骤1：从开源VLM蒸馏正确推理轨迹

步骤2：LLM提取需要定位的对象

步骤3：SAM3智能代理生成掩码

步骤4：转换为双格式标注

数据规模

四、Grounding 感知的强化学习

奖励1：答案正确性

奖励2：定位质量

五、小模型奇迹：4B = 27B

六、技术洞察：点 vs 框

为什么点模式在计数上更好？

为什么框模式在空间关系上更好？

两种模式互补

七、局限与追问

1. SAM3的依赖

2. 定位的粒度

3. 通用性验证

4. 推理效率

八、总结：从"自说自话"到"指证如山"

🌟 智谱 GLM-5 已上线