Thinking with Visual Grounding:让VLM"指给你看"它到底在看什么
Thinking with Visual Grounding:让VLM"指给你看"它到底在看什么
> Zhang, J., Deng, Y., Chang, K.-W., Wang, W. *Thinking with Visual Grounding.* UCLA, arXiv:2606.16122, 2026.
---
一、VLM链式推理的"黑箱病"
多模态大模型的链式推理(Chain-of-Thought)有一个隐蔽但严重的缺陷:推理过程是纯文本的,看不见摸不着。
模型说"图中左边的红色球更大"——但你不知道它真的看了左边,还是只是在说一个统计上正确的答案。模型说"桌子上有三个苹果"——但你不知道它真的数了三个,还是训练数据里这类图通常有三个。
更危险的是:在VQA基准上,模型可以完全不看图,仅靠文本先验就答对相当一部分题目。这意味着链式推理的文本链条可能是"幻觉式自圆其说"——听起来合理,实际上与图像无关。
UCLA 这篇论文的核心主张:链式推理必须和视觉证据显式绑定。每一步推理,模型都要"指出来"它在看哪。
---
二、Visual Grounded 推理:不是"说",是"指"
论文提出的格式很简洁:推理过程中,每提到一个视觉对象,就输出对应的坐标定位。
推理: "左边的红色球比右边的蓝色球大"
定位: [bbox: 0.12, 0.34, 0.28, 0.56] [bbox: 0.62, 0.34, 0.78, 0.56]
两种模式:
- 点模式:输出一个点坐标
(x, y),标记对象中心。适用于计数、存在性判断。 - 框模式:输出 bounding box
[x1, y1, x2, y2],标记对象范围。适用于空间关系、几何推理。
---
三、数据从哪里来?SAM3 自动合成流水线
最大的瓶颈是训练数据:需要大量"推理步骤 + 视觉定位"的配对数据。人工标注成本极高,而且难以覆盖各种场景。
论文的解决方案是全自动合成流水线(19k+数据,无需人工标注):
步骤1:从开源VLM蒸馏正确推理轨迹
用能力较强的开源VLM(如Qwen2.5-VL)生成正确的推理轨迹。只保留答案正确的样本。步骤2:LLM提取需要定位的对象
用LLM分析推理文本,提取出每一步需要视觉证据支持的对象名词(如"红色球"、"左边的桌子")。步骤3:SAM3智能代理生成掩码
将LLM提取的对象名和图像输入 SAM3(Segment Anything Model 3),SAM3 迭代生成高精度的目标掩码。这里用了"智能代理"的表述——SAM3 不是一次性分割,而是可以迭代修正、多目标推理的分割代理。步骤4:转换为双格式标注
将 SAM3 掩码转换为:- 点:掩码中心点
- 框:掩码外接矩形
数据规模
最终生成 19k+ 带视觉标注的推理轨迹,覆盖SFT和RL训练需求。关键点:流水线是可扩展的。只要有新的图像和VQA数据,就可以自动合成新的训练数据。
---
四、Grounding 感知的强化学习
仅靠SFT不够。模型需要学会"什么时候该定位、定位到哪里"。论文在RL阶段设计了一个双重奖励。
奖励1:答案正确性
标准VLM RL奖励:最终答案与ground truth匹配。奖励2:定位质量
这是论文的核心创新。设计了一个VLM对象路由匹配机制:1. 模型生成定位(框或点) 2. 与真实标注(SAM3生成的掩码转换)匹配 3. 计算定位质量:
- 框模式:IoU(Intersection over Union)或中心点距离
- 点模式:点到掩码中心或边界的距离
L = L_answer + λ * L_grounding
为什么需要这个? 因为仅靠答案正确性奖励,模型可能学会"文字游戏"——答对了但定位不准。显式的定位质量奖励强迫模型真正关注正确的视觉区域。
---
五、小模型奇迹:4B = 27B
论文最惊人的结果在空间推理:
| 模型 | 参数 | 计数任务 | 空间关系 |
|---|---|---|---|
| 基线VLM | 4B | 一般 | 较弱 |
| 同系列大模型 | 27B | 较好 | 一般 |
| 本文模型(4B) | 4B | 接近27B | 超越27B |
这说明什么?
- 定位能力不是"参数堆出来的",而是结构先验(显式grounding格式)带来的
- 大模型可能在用"统计记忆"做空间推理,小模型被迫"真正看"反而更准
- 对于需要精确空间理解的任务(如机器人、自动驾驶),显式grounding比隐式表征更可靠
六、技术洞察:点 vs 框
为什么点模式在计数上更好?
计数只需要"有没有这个实例",不需要知道边界在哪。点模式轻量、精确,避免框的冗余信息干扰。为什么框模式在空间关系上更好?
"左边"、"右边"、"上面"需要感知物体的范围和相对几何。框提供了边界信息,模型可以计算空间关系(如中心点距离、重叠区域)。两种模式互补
论文的实验表明,在空间推理上两者效果接近,但不同任务有各自的最佳模式。这提示了一个设计原则:根据下游任务选择grounding格式,而不是一刀切。---
七、局限与追问
1. SAM3的依赖
数据合成流水线严重依赖 SAM3 的分割质量。如果 SAM3 对某个对象分割失败(如小目标、遮挡、模糊边界),整个训练样本就废了。论文没有讨论 SAM3 失败率对数据质量的影响。2. 定位的粒度
当前只有点和框两种模式。对于更复杂的视觉推理(如"曲线的曲率"、"纹理的走向"),这两种模式可能不够。是否需要更精细的掩码级grounding?或者更高层次的语义区域(如"左上角区域")?3. 通用性验证
论文主要在空间推理和计数任务上验证。对于更抽象的VQA(如"为什么这个人看起来难过?"),grounding可能退化为"指人脸"这种 trivial 定位,是否还能提升性能?4. 推理效率
每步推理都生成坐标,增加了输出长度。对于长推理链,token开销是否显著?论文没有报告推理速度对比。---
八、总结:从"自说自话"到"指证如山"
这篇论文的核心贡献是让VLM的推理过程可验证。
三个要点: 1. 问题:纯文本链式推理是不可验证的——模型可以不看图就"说对" 2. 方案:Visual Grounded 推理格式——每步推理绑定显式坐标(点或框) 3. 训练:SAM3自动合成19k+数据 + 双重RL奖励(答案正确 + 定位质量)
最惊人的结果:4B模型凭借显式grounding结构,在空间推理上超越27B大模型。这证明了推理格式的先验设计比参数规模更重要。
对于任何做VQA、具身智能、视觉机器人的人来说,这篇论文的核心启示是:
> 不要只问模型"答案是什么",还要问它"证据在哪里"——并且让它指出来。
---
参考
- Zhang, J. et al. (2026). Thinking with Visual Grounding. *arXiv:2606.16122*. UCLA.
- SAM3: https://github.com/facebookresearch/segment-anything
- Qwen2.5-VL: https://huggingface.co/Qwen
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens