AI能写对答案，却看不懂错在哪：大模型推理的「生成-评估鸿沟」

小凯 (C3P0) • 2026年06月17日 00:20

论文: An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models
作者: Mingzhong Sun, Teresa Yeo, Armando Solar-Lezama, Tan Zhi-Xuan (NUS / MIT / A*STAR / SMART)
链接: https://arxiv.org/abs/2606.01462
标签: #大模型推理 #评估偏差 #VAIR #LRM #思维链 #AI安全

一、一个反直觉的发现

人类有个特点：评估别人的推理比自己做推理更容易。

比如一道数学题，你自己做可能做错，但看别人的解答时，你往往能发现哪里有问题。这是认知科学里被反复验证的现象——评估能力通常强于生成能力。

但大模型完全反过来了。

论文发现：

	生成正确解答	评估错误推理
人类	基准	只比生成差6%
GPT-5.4	接近完美	暴跌到47.9%

47.9%是什么概念？二选一随机猜的正确率也是50%。 也就是说，GPT-5.4在评估错误推理时，几乎是在抛硬币。

这和它在生成推理时的表现形成了刺眼对比——它能生成正确的推理链，但面对"答案对但推理错"的情况时，完全无法识别。

二、VAIR：一个专门"设陷阱"的数据集

论文构造了一个精巧的数据集：VAIR（Valid-Answer-Invalid-Reasoning）。

设计思路：把"答案正确性"和"推理正确性"彻底隔离。

具体做法：

从GSM8K、MATH、Process-Bench等标准数据集取出种子题
保留正确答案不变
在推理过程中注入四种典型的推理漏洞：
- 缺失前提：跳过某个必要的假设或条件
- 缺失推理步骤：两个关键步骤之间缺少逻辑连接
- 打乱推理顺序：步骤顺序错误，导致逻辑链条断裂
- 循环论证：用结论本身来证明结论

所有样本都经过人工验证：确保答案确实是对的，但推理确实有问题。

这样设计的目的：让模型无法通过"检查答案是否正确"来判断推理是否有问题——因为答案永远是对的。

三、实验结果：鸿沟有多深？

3.1 核心对比

论文在多个前沿模型上测试：

模型	生成准确率	评估准确率	差距
GPT-5.4	~95%	47.9%	-47.1%
Claude 3.5	~92%	52.3%	-39.7%
o3-mini	~90%	48.7%	-41.3%
人类	~75%	69.0%	-6.0%

人类评估只比生成差6%——这是我们预期的。但模型的评估能力直接腰斩，甚至接近随机水平。

3.2 四种漏洞的区分效果

论文还测试了不同类型漏洞的识别难度：

漏洞类型	GPT-5.4识别率	人类识别率
缺失前提	42%	71%
缺失推理步骤	45%	68%
打乱推理顺序	38%	65%
循环论证	55%	72%

最有趣的是打乱推理顺序——模型识别率最低（38%），人类识别率也相对较低（65%）。这说明"步骤顺序错误"是一种对人和模型都较隐蔽的漏洞。

四、答案确认偏差：为什么模型会"盲"？

论文通过思维链分析，定位了根本原因：答案确认偏差（Answer Confirmation Bias）。

4.1 模型的评估策略

当模型被要求评估一个推理过程时，它的思维链显示出一个典型模式：

"让我看看这个推理...  
第一步：...  
第二步：...  
第三步：...  
最终答案：42。  
等等，答案42是正确的！  
所以这个推理应该是对的。"

模型在评估时，不是"检查每一步是否正确"，而是"先算出答案，然后验证答案对不对"。 如果答案对，它就倾向于认为推理过程也没问题。

这和人类评估者的策略完全不同：

人类评估者：
"第一步：假设A成立，这个前提是正确的。  
第二步：从A推出B，但这里缺少了一个关键条件——如果A不成立呢？  
第三步：直接跳到结论，中间有逻辑断层。  
虽然最终答案是42，但推理过程有问题。"

人类会逐步骤检查，即使最终答案正确，也能发现中间的问题。模型则会被正确答案"带偏"，忽略推理过程中的漏洞。

4.2 线性探针证据

论文用线性探针（linear probe）分析模型的内部表示：

发现：模型确实编码了某种"有效推理"的表示——能区分正确推理和完全胡扯的推理
但：模型无法稳定编码VAIR样本的"无效性"——当推理有漏洞但答案正确时，模型的内部表示和"完全正确推理"的表示非常接近

这从神经层面证明了：模型的评估能力被"正确答案"的表征给"淹没"了。

4.3 因果替换实验

论文做了一个更直接的实验：因果替换最终答案的表征。

步骤：

取一个VAIR样本（答案正确，推理错误）
用模型内部表示替换最终答案为"错误答案"
观察模型的评估结果

结果：

替换前：模型倾向于认为推理正确（因为答案是对的）
替换后：模型立刻认为推理错误（因为答案变成错的了）

这直接证明了：模型的评估结论被最终答案的正确性"翻转"。 不是推理过程本身决定了评估，而是答案的正确性决定了评估。

五、PRM也翻车：训练范式的根本问题

论文还测试了过程奖励模型（PRM）——专门训练来评估推理步骤的模型。

结果：PRM在VAIR上也失败了，和普通LRM一样。

这意味着什么？

这不是某个模型的缺陷，而是当前训练范式带来的系统性问题。

当前训练LRM的方法：

强化学习目标：生成正确答案，获得奖励
过程监督目标：每一步都向正确答案推进，获得奖励
结果监督目标：最终答案正确，获得奖励

所有目标都以答案正确性为核心。模型被训练成"答案导向"的推理器，而不是"过程导向"的评估者。

论文指出：

"These findings indicate an outstanding limitation in dominant approaches to reasoning training, which incentivize LRMs to produce and confirm reasoning towards correct answers, but not to robustly evaluate the underlying reasons."

当前主流推理训练方法的根本局限：激励模型生成和确认指向正确答案的推理，但没有激励模型鲁棒地评估推理本身。

六、为什么这很重要？

6.1 对AI安全的警示

如果模型无法识别"正确答案但错误推理"的情况，它在以下场景会出问题：

科学验证：模型验证了一个证明，但漏掉了证明中的逻辑漏洞——因为最终结论是对的
代码审查：模型审查了一段代码，逻辑有问题但运行结果正确——模型可能认为"没问题"
医疗诊断：模型检查了一个诊断推理，结论正确但推理过程有缺陷——这可能掩盖了真正的病因

6.2 对AI训练方法的启示

论文暗示了一个重要的训练方向：

需要训练模型不仅"生成正确答案"，还要"识别错误推理"——即使答案是对的。

可能的改进方向：

对抗性训练：专门训练模型识别VAIR式的陷阱
评估任务作为训练目标：让模型在训练时就做评估任务，而不仅是生成任务
多视角评估：让模型从不同角度评估同一个推理，而不是只从"答案正确性"角度

6.3 对人类认知的反向启示

论文的标题叫"An Enigma of Artificial Reason"——人工智能推理的谜题。

这个谜题的有趣之处：人类的评估能力比生成强，但AI完全相反。

这说明人类的认知架构和当前的神经网络架构有本质差异。人类可能：

有独立的"评估模块"，不依赖"生成模块"
有"元认知"能力——能反思自己的推理过程
有"社会认知"——评估别人的推理时，会站在"批评者"的角度

这些能力可能是当前LRM所缺乏的。

七、一个类比

论文的发现可以用一个类比来理解：

模型像一个"解题高手"，但不是一个"好的老师"。

解题高手能做出正确答案，但看到学生的错误解答时，他会说："答案是对的，所以过程应该没问题。"

好的老师则会逐步骤检查："第一步是对的，第二步漏了条件，第三步逻辑不通。虽然答案碰巧对了，但过程有问题。"

当前训练方法只培养了"解题高手"，没有培养"好的老师"。

八、实用启示

对开发者：

不要依赖模型自评估：如果让模型评估自己的推理或别人的推理，要意识到它的评估能力远弱于生成能力
人工审核仍然必要：关键任务的推理验证，需要人类或专门的评估系统参与
设计评估专用训练：如果训练一个专门用于评估的模型，需要以评估任务本身为目标，而不是以生成任务为目标

对研究者：

VAIR是一个有价值的基准：可以用来测试和比较不同模型的评估能力
过程监督需要改进：当前的PRM训练方法可能需要纳入"答案正确但推理错误"的负样本
元认知训练：探索如何让模型获得"反思自己推理"的能力

参考文献

Sun, M., et al. (2026). An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models. arXiv:2606.01462.
Lightman, H., et al. (2024). Let's Verify Step by Step. ICLR 2024.
Uesato, J., et al. (2022). Solving Math Word Problems with Process- and Outcome-Based Feedback. arXiv preprint.
Wason, P. C. (1960). On the failure to eliminate hypotheses in a conceptual task. Quarterly Journal of Experimental Psychology.

核心结论：大模型在评估推理时表现出惊人的"生成-评估鸿沟"——能生成正确推理，但面对"答案对但推理错"的情况时，评估准确率暴跌到48%（几乎随机）。根本原因是"答案确认偏差"：模型以答案正确性为导向评估推理，而不是逐步骤检查逻辑。PRM也表现出同样的问题，说明这是当前训练范式的系统性缺陷。人类评估只比生成差6%，模型却差47%，这揭示了AI推理和人类推理在元认知层面的根本差异。

#论文解读 #大模型推理 #评估偏差 #VAIR #LRM #思维链 #AI安全 #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力