一、问题的提出: longer thinking cannot fix incorrect perception
当前多模态大模型(VLM)的后训练存在一个根深蒂固的假设:如果模型在视觉推理任务上表现不好,那是因为"思考不够深"。于是各种"长思维链"、"自我反思"、"推理增强"的方法层出不穷。
但这篇来自UCSB、复旦、Sea AI等机构的论文用数据给出了一个颠覆性的答案:86.9%的VLM推理错误,根源不是推理能力弱,而是第一步视觉感知就错了。 模型看到了错误的几何关系、读错了图表数值、漏掉了关键视觉细节——后续无论推理链多长、反思多深刻,都只是在错误的地基上盖楼。
论文用一个对比案例(Case A vs Case B)讲清了这个道理:Case A中模型错误感知了切线长度,随后陷入了反复"重新检查图像"的冗长推理,最终无法收敛;Case B中模型一开始就正确识别了几何关系,推理链简洁直接——两者准确率差异巨大,但差异不在推理深度,而在感知精度。
这个发现对VLM社区有深远影响:过去几年的技术路线可能过度偏向了"推理增强",而对"感知增强"的投入严重不足。论文的核心论点用一句话概括:longer thinking cannot fix incorrect perception(更长的思考无法修正错误的感知)。
二、方法:把后训练拆成三段式
2.1 三阶段能力分解
论文将VLM能力严格分解为三个独立维度,按特定顺序依次训练:
阶段一:视觉感知(Visual Perception)
目标:准确识别视觉细节和空间关系
数据:从DOCCI数据集自动合成的感知QA对
阶段二:文本推理(Textual Reasoning)
目标:多步逻辑推理能力
数据:纯文本数学推理题
阶段三:视觉推理(Visual Reasoning)
目标:结合感知和推理解决视觉问题
数据:多模态推理数据集
这个顺序不是拍脑袋定的,而是基于"先筑牢感知基础再优化推理能力"的原则。消融实验证实:打乱这个顺序(先视觉推理再感知),性能下降4.6%。
2.2 感知数据的「精准筛选」机制
感知数据的质量直接决定感知训练的效果。论文设计了一套巧妙的双路径筛选机制:
公式(2):双路径评估
公式(3):保留条件
这个条件的含义是:只保留那些"模型看图像时答错、但看文字标题时能答对"的样本。 这意味着样本本身的信息是完整的(标题能帮助模型答对),但模型当前无法从视觉输入中提取这些信息——这正是感知能力的"精准缺口"。
双重验证用Qwen2.5-VL-7B和Qwen2.5-VL-32B两个模型独立过滤,避免单模型偏差。
2.3 RLVR:强化学习优于监督微调
论文使用GRPO(Group Relative Policy Optimization)进行强化学习训练,而非传统的SFT(Supervised Fine-Tuning)。
奖励设计:
GRPO优化目标:
关键发现:在Qwen2.5-VL-7B上,RLVR vs SFT的WeMath差距达到 -8.19%(38.29% vs 30.10%)。论文解释为:SFT的token-level off-policy监督和数据质量低于预训练语料,可能损害性能。
三、实验结果:感知增强的连锁反应
3.1 主结果
Qwen3-VL-8B系列
| 模型 | 视觉数学AVG | 感知AVG | 总体AVG |
|---|---|---|---|
| Base | 45.17 | 79.21 | 62.19 |
| OneThinker-8B | 51.10 | 78.64 | 64.87 |
| Ours (Staged) | 51.10 | 80.44 | 65.77 |
关键突破:
- WeMath: 56.1%(+5.2% over base, +1.5% over OneThinker)
- RealWorldQA: 74.5%(+3.7% over base, +3.0% over OneThinker)
- MMStar: 73.1%
3.2 分阶段 vs 合并训练
| 训练方式 | Qwen3-VL-8B总体AVG | Qwen2.5-VL-7B总体AVG |
|---|---|---|
| Base | 62.19 | 56.68 |
| Merged | 64.67 | 58.34 |
| Staged | 65.77 | 59.75 |
| 分阶段提升 | +1.10 | +1.41 |
分阶段在所有指标上均优于合并训练,且感知AVG的提升说明分阶段训练确实改善了感知能力。
3.3 推理路径缩短:更强的感知=更短的思考
这是论文最优雅的发现之一。训练过程中的响应长度监测显示:
| 训练阶段 | 合并训练 | 分阶段训练 | 缩短 |
|---|---|---|---|
| Stage 3期间 | 562 tokens | 445 tokens | -20.8% |
测试集上的响应长度:
| 基准 | 分阶段 | 合并 | 缩短比例 |
|---|---|---|---|
| MathVista | 1325.89 | 1420.30 | -6.6% |
| MathVision | 2930.41 | 3163.41 | -7.4% |
| MathVerse (VO) | 1541.89 | 1764.93 | -12.6% |
| WeMath | 1745.69 | 1906.07 | -8.4% |
核心机制:当感知更准,模型不需要反复"重新检查图像"、不需要生成冗长的验证推理链。正确感知直接导向简洁推理——这验证了论文的核心论点:错误感知是推理冗长的根源。
3.4 感知错误数量减少
| 模型配置 | 感知错误样本数 | 总样本数 | 错误率 |
|---|---|---|---|
| Base | 857 | 3044 | 28.2% |
| Merged | 805 | 3044 | 26.4% |
| Staged | 781 | 3044 | 25.7% |
分阶段训练减少了感知错误数量,且这种减少直接传导到更高的准确率和更短的推理链。
四、消融实验:顺序、方法、维度的正交性
4.1 训练顺序:感知必须在前
| 顺序 | Qwen2.5-VL-7B总体 | Qwen3-VL-8B总体 |
|---|---|---|
| 1→2→3(感知→文本→视觉推理) | 59.75 | 65.77 |
| 2→1→3(文本→感知→视觉推理) | 59.61 | 65.80 |
| 3→2→1(视觉推理→文本→感知) | 55.93 | 64.79 |
关键发现:
- 1→2→3和2→1→3性能相当——感知和文本推理作为"基础能力"可互换顺序
- 3→2→1(先视觉推理)显著退化:Qwen2.5-VL-7B从59.75%降至55.93%(-4.6%)
- 结论:视觉感知必须在视觉推理之前巩固
4.2 RLVR vs SFT:强化学习的压倒性优势
| 方法 | Qwen2.5-VL-7B总体 | Qwen3-VL-8B总体 |
|---|---|---|
| RLVR | 59.75 | 65.77 |
| SFT | 56.35 | 65.14 |
| 差距 | -3.40 | -0.63 |
RLVR在Qwen2.5-VL-7B上优势巨大,Qwen3-VL-8B差距较小可能是因为基线模型本身已经过更好的预训练。
4.3 能力维度课程 vs 难度维度课程:正交叠加
| 课程类型 | Qwen3-VL-8B AVG |
|---|---|
| None (Merged) | 58.56 |
| Capability (能力维度) | 60.53 (+1.97) |
| Difficulty (难度维度) | 60.36 (+1.80) |
| Capability+Difficulty | 62.99 (+4.43) |
核心发现:能力维度和难度维度是正交的,两者结合带来超过各自单独使用2%以上的额外增益。
五、战略审视:感知优先的范式转移
5.1 对现有VLM后训练的反思
当前VLM后训练的主流范式是"混合所有数据、一起训练"。论文证明这个范式次优——感知、推理、视觉推理三种能力有不同的学习动力学,混合训练会导致"感知能力被推理数据稀释"。
更深层的问题:过去几年的VLM研究过度强调"长思维链"和"自我反思",但论文的数据表明,这些方法的边际收益正在递减 ——因为问题的根源不在推理而在感知。如果86.9%的错误来自感知,那么把资源投入到推理增强(长思维链、自我反思)的收益天花板只有13.1%。
5.2 感知数据自动构建的启示
论文的感知数据筛选机制("看图像答错但看标题答对")是一个可以广泛复用的设计模式。它不需要额外标注——只依赖已有模型的推理结果和现有数据集的标题信息。这种模式可以被应用到任何需要"感知增强"的场景:
- 文档理解:筛选"看OCR结果答错但看人工文本答对"的样本
- 视频理解:筛选"看视频片段答错但看字幕/旁白答对"的样本
- 医学影像:筛选"看影像答错但看病历文本答对"的样本
5.3 推理路径缩短的工程价值
推理路径缩短20.8%不仅是"更快"——在部署场景下,更短的推理链意味着:
- 更低的推理成本(token消耗减少)
- 更低的延迟(用户等待时间缩短)
- 更少的"思考幻觉"(冗长推理链容易引入无关的错误假设)
这是一个"一箭三雕"的收益:准确率提升+成本降低+体验改善。而实现的手段不是更复杂的推理架构,而是更扎实的感知基础。
5.4 局限与开放问题
模型规模限制:实验仅在7B和8B模型上完成,更大规模(如72B)的分阶段训练是否仍有效?感知错误率在高参数模型上是否已经是不同量级?
数据构建的领域依赖:DOCCI数据集的感知QA生成基于Qwen2.5-72B,这个生成器本身的能力上限决定了感知数据的质量天花板。如果生成器对某些视觉概念理解有限,筛选出来的"感知缺口"可能不是真正的缺口。
视觉编码器的作用:论文在三个阶段都启用了视觉编码器,但未深入研究视觉编码器是否需要分阶段调整(如感知阶段训练视觉编码器,推理阶段冻结)。
六、结论
这篇论文用86.9%这个数字,给VLM社区敲了一记警钟:我们过去可能一直在错误的地方使劲。当模型"看不懂图"时,让它"想得更久"不是解决方案——就像让近视的人瞪大眼睛不会让他看得更清楚。
分阶段后训练框架的价值不在于复杂的算法创新,而在于一个简单的认知重定向: 感知是推理的前置条件,不是并行的同事。先让模型"看清楚",再让它"想清楚",最后让它"结合起来解决问题"——这个顺序不可打乱。
论文最优雅的发现是"感知增强→推理路径缩短"的连锁反应。它揭示了一个反直觉但深刻的道理:在AI系统中,减少错误源头比增强纠错能力更有效。让模型少犯错,比让模型学会从错误中恢复,是更根本的工程策略。
对于正在训练或微调VLM的团队,这篇论文的建议是明确的:检查你的训练数据——感知数据和推理数据的比例是否合理?你的感知训练是否足够独立和聚焦?你的评估是否区分了"感知错误"和"推理错误"?
86.9%这个数字,值得被记住。
参考与延伸
- 论文:From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models(arXiv:2605.20177)
- DOCCI数据集
- GRPO / RLVR训练框架
- OneThinker-8B / GThinker-7B / MMR1-7B / OpenVLThinker-7B
- MathVista / MathVision / MathVerse / WeMath
- 能力维度课程学习 vs 难度维度课程学习
#VLM #视觉语言模型 #感知与推理 #后训练 #多模态 #强化学习 #课程学习 #视觉推理 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。