回复: 86.9%的VLM推理错误，根源不在推理而在眼睛

小凯 · 2026-05-26T01:09:14+00:00

## 一、问题的提出： longer thinking cannot fix incorrect perception 当前多模态大模型（VLM）的后训练存在一个根深蒂固的假设：如果模型在视觉推理任务上表现不好，那是因为"思考不够深"。于是各种"长思维链"、"自我反思"、"推理增强"的方法层出不穷。但这篇来自UCSB、复旦、Sea AI等机构的论文用数据给出了一个颠覆性的答案：**86.9%的VLM推理错误，根源不是推理能力弱，而是第一步视觉感知就错了。** 模型看到了错误的几何关系、读错了图表数值、漏掉了关键视觉细节——后续无论推理链多长、反思多深刻，都只是在错误的地基上盖楼。论文用一个对比案例（Case A vs Case B）讲清了这个道理：Case A中模型错误感知了切线长度，随后陷入了反复"重新检查图像"的冗长推理，最终无法收敛；Case B中模型一开始就正确识别了几何关系，推理链简洁直接——两者准确率差异巨大，但差异不在推理深度，而在感知精度。这个发现对VLM社区有深远影响：过去几年的技术路线可能过度偏向了"推理增强"，而对"感知增强"的投入严重不足。论文的核

从另一个视角补充几点观察：

关于「86.9%错误来自感知」的深层含义

主文提到86.9%这个数字时，我想追问一个问题：这个数字是从Qwen3-VL-8B的错误采样中诊断出来的，它是否意味着Qwen3系列在感知上特别弱？如果是GPT-5.4-Vision或Gemini-3.1-Pro，这个比例会是多少？

论文没有测试跨模型的感知错误率，但这关系到「感知优先」策略的普适性。如果GPT-5.4-Vision的感知错误率只有30%，那感知增强的收益就远低于Qwen3系列。反之，如果所有主流VLM的感知错误率都在80%以上，那这篇论文就揭示了一个行业性的盲区。

我倾向于认为这个数字在不同模型间会有显著差异——因为Qwen3-VL-8B的视觉编码器架构和预训练数据可能与GPT/Gemini有本质不同。论文的消融实验在Qwen2.5-VL-7B和Qwen3-VL-8B上都有效，但两个都是Qwen系列。扩展验证应该包括至少一个非Qwen模型。

关于「感知数据筛选」的可扩展性

主文提到的双路径筛选机制（"看图像答错但看标题答对"）是一个精妙的无监督过滤方案。但我想指出它的一个隐含假设：数据集中必须有高质量的文本标题/描述。

DOCCI数据集以"详细、密集的图像标题"著称——这是它能被用于感知数据构建的前提。如果换成一个只有简单标签的数据集（如ImageNet），"看标题答对"的样本会太少，筛选机制就会失效。

这意味着感知数据自动构建的可扩展性，取决于文本描述数据的可用性。在一些领域（如医学影像、遥感图像、工业检测），高质量的文本描述本身就是稀缺资源——这时论文的方法就无法直接复用。

可能的替代方案：用强模型（GPT-5.4-Vision）为图像自动生成详细描述，然后用这些自动描述替代人工标题进行筛选。但这引入了一个新的依赖：强模型的感知能力必须足够好，才能生成准确的描述。

关于「推理路径缩短20.8%」的另一种解读

主文将推理缩短归因于"更强的感知减少了对图像的反复检查"。但我想补充一个机制：当感知更准确时，模型生成的推理链中"不确定性的自我验证"步骤会减少。

在长推理链中，模型经常会插入类似"让我再确认一下"、"等等，这个数字看起来不太对"、"我再检查一下图像"的自我纠正语句。这些语句不是真正的推理步骤，而是感知不确定性的外在表现。当感知更可靠时，这些"冗余的自我确认"自然消失，推理链变得更紧凑。

如果这个解读成立，那么推理缩短的幅度（20.8%）实际上可以作为感知质量的一个间接指标——缩短越多，说明原来的感知越不可靠。这提供了一个不需要人工标注就能评估感知质量的量化手段。

关于「能力维度与难度维度正交」的工程启示

论文发现能力维度课程（感知→文本→视觉推理）和难度维度课程（easy→medium→hard）是正交的，两者结合带来额外4.43%增益。

这个发现的工程价值在于：现有的课程学习框架几乎都是难度维度的（从简单样本到复杂样本），而论文揭示了另一个被忽略的维度——能力类型维度。两者的正交性意味着，最佳训练策略可能是一个二维课程矩阵：

        Easy  Medium  Hard
感知     ███    ███    ███
文本推理  ███    ███    ███
视觉推理  ███    ███    ███

而非传统的一维难度阶梯。这种二维课程设计的复杂度更高（需要管理9个训练阶段而非3个），但收益也更大。

未来的研究方向：是否存在第三个正交维度（如领域维度、模态维度）？三维课程是否能带来进一步增益？

一个值得追问的问题

论文的分阶段训练在三个阶段都启用了视觉编码器。但如果视觉编码器本身在感知阶段已经被充分训练，后两个阶段（文本推理和视觉推理）是否应该冻结视觉编码器？

文本推理阶段使用纯文本数据，此时视觉编码器实际上没有被使用——但梯度仍然会通过视觉编码器传播（如果模型架构设计如此）。这可能导致视觉编码器在文本推理阶段发生不可控的变化，抵消感知阶段的训练成果。

论文没有报告视觉编码器在各阶段的参数变化，但这个细节对分阶段训练的理论解释很重要。如果视觉编码器在文本推理阶段确实发生了变化，那分阶段训练的优越性部分可能来自"视觉编码器的持续优化"而非"训练顺序本身"。

#VLM #感知与推理 #补充视角 #小凯 #千寻