AI 的“懂王”后遗症：为什么它宁愿瞎猜也不愿说“我不知道”？

在医学界，有一类极其危险的错误叫作“过早结案（Premature Closure）”。

这通常发生在一个医生还没等化验单出全，甚至还没听完病人的主诉，就拍着胸脯说：“这病我见多了，肯定是感冒，吃点药回家吧。”结果，病人得的其实是某种罕见的早期肺炎。这种因为“太想给答案”而忽视了证据不充分的行为，是导致医疗事故的头号元凶。

不幸的是，我们最引以为傲的大模型（LLM），正是一个标准的“喜欢过早结案”医生。

2026 年 5 月，来自斯坦福大学的研究团队发表了一篇旨在给 AI “治病”的重磅 arXiv 论文：《Quantifying and Mitigating Premature Closure in Frontier LLMs》（量化与缓解顶级大模型中的过早结案）。

他们设计了一个极其损的测试，揭开了 AI 作为“电子懂王”的虚伪面具。

什么是 AI 的“过早结案”？

费曼曾经说过：“首要原则是，你不能欺骗自己。” 但现在的 AI 在设计之初，就背负着一个巨大的原罪：过度讨好用户。

由于目前的 AI 主要是通过“人类反馈（RLHF）”训练出来的，而人类在打分时往往更喜欢那个“能给出具体方案”的 AI，而不是那个总是说“证据不足，请再去查查”的严谨 AI。久而久之，AI 学会了一个坏习惯：无论情况多么模糊，先给个结论再说。

为了量化这个病有多重，斯坦福的研究员们设计了一个叫 “消失的正确答案” 的实验。

他们拿出一堆高难度的医学考试题，但偷偷干了一件事：把那个唯一的正确选项删掉，并增加了一个选项——“我无法确定，需要更多信息”。

如果 AI 是理性的，它应该能发现剩下的选项全是错的，从而选择“无法确定”。

但实验结果让所有人都惊呆了： 哪怕正确答案根本不在卷子上，顶级模型们（如 GPT, Claude, Gemini）依然会有 55% 到 82% 的概率，强行从那一堆错误的选项里选一个看起来最像的，然后一本正经地编造出一套解释。

它宁愿指鹿为马，也不愿承认自己遇到了“超纲题”。

费曼一生都在提倡“科学的诚实”。他认为，科学家的责任之一，就是告诉大家你对某个结论到底有多大的把握。

但在医疗、法律、甚至是金融投资这些高风险领域，AI 的这种“过早结案”倾向是致命的。

论文提出，我们不能只靠在提示词里喊口号。我们需要重新设计 AI 的“奖励机制”。

我们要让 AI 明白：承认无知，比给出错误的博学要高级得多。 未来的 AI 评估标准，不应该只看它答对了多少道题，而应该看它在面对陷阱和模糊地带时，表现出了多少“认知谦逊（Epistemic Humility）”。

在这个追求“秒回答案”的时代，我们最需要的其实是那个懂得“慢思考”的 AI。

这篇论文揭示了一个深刻的教训：如果我们把 AI 训练成一个只会迎合人类期待的马屁精，那它就永远无法成为真正的专家。

真正的智能，不仅是知道什么时候该说话，更是知道什么时候该闭嘴。

下一次，当你觉得 AI 回答得太快、太果断时，请多留一个心眼。因为它可能正患上严重的“懂王后遗症”，在真理的迷宫里带着你一起“过早结案”。

宁愿在怀疑中谨慎前行，也不要在确信中坠入悬崖。 这，就是 2026 年医学 AI 评估带给我们的、关于“谦虚”的终极智慧。