当AI明知故错：越大的模型，越敢睁眼说瞎话

> 给一个学生看他的草稿纸——正确答案明明写在那儿，笔画潦草了一点，旁边还有一堆同义词和缩写。他犹豫了两秒，选了另一个更"显眼"的选项。你问他："你不是知道吗？"他答不出。论文对 18 个 LLM 做了一件类似的事。

---

📋 论文信息

项目	内容
标题	Hallucination as Commitment Failure: Larger LLMs Misfire Despite Knowing the Answer
作者	Jewon Yeom, Jaewon Sok, Heejun Kim, Seonghyeon Park, Jeongjae Park, Taesup Kim
机构	Seoul National University (数据科学研究生院、农村系统工程系、航空航天工程系), GIST (电算系)
arXiv	2605.22007
提交	2026年5月21日
核心论点	16%–47% 的 Instruct LLM 幻觉属于"承诺失败"——模型在输出那一刻的概率分布里有充足的正确答案质量，但它没有选。更惊人的是，这个比例随着模型变大而单调上升。驱动因素不是规模本身，是指令微调对答案承诺的"锐化效应"。

---

想象一下这个场景。

你问一个学生："《国富论》是谁写的？"他说："Adam Levine。"

你去看他的草稿纸。

上面写着：Adam Smith（60%）、Adam（15%）、Smith（10%）、Levine（30%）。

正确答案不仅存在——它占了他思考时间的大头。但他最终选了那个更"扎眼"的错误选项。

如果这个学生越聪明，这种事情发生得越频繁呢？一个平庸的学生答错是因为真不知道。一个顶尖的学生——草稿纸上写着正确答案——偏偏把它否决了。

这就是首尔国立大学六位研究者发现的事。他们的实验横跨 18 个模型，从 Qwen 0.8B 到 Llama 70B，测了 TriviaQA、NQ-Open、MMLU、ARC-Challenge 四个数据集。结论的骨架很硬。

---

🔍 1. 拆解"幻觉"——不看最终输出，看输出前那一秒

大模型产生幻觉这件事，业界的标准理解大致是：模型缺乏相关知识，正确的 token 不在它的概率分布里，于是它"编造"了一个。

这个解释很舒服。问题出在知识空缺，填补空缺就行。

但有一类实验一直在叮咬这个舒适的解释。Simhi 等人在 2025 年记录了"CHOKE"现象——模型明明知道正确答案，却极度自信地输出错误答案。Farquhar 等人在开创语义熵的工作时也明确指出："自信地错"和"不确定地编造"是两个完全不同的现象。更大、更强的模型似乎在某些时候特别擅长自信地错。

这篇论文做的事是：在模型"将要输出第一个答案 token 的那一刻"，截住它的概率分布，看看正确答案到底在不在里面。

具体怎么做的？他们定义了一个概念叫"语义概率质量"（semantic probability mass，简称 $P_{\text{mass}}$）：把同一个答案的所有可能写法——全称、缩写、别名、不同大小写——在词表里的 token 概率全部加总到一起。

举个例子：圣彼得堡。模型可能在 token 层面给 "Saint" 分配了 24% 的概率、"St" 分到 11%、"C"（作为 St. Basil's Cathedral 的起始）分到 13%。单个看，每一个都不如一个竞争对手的 "Mos"（31%），所以贪心解码会输出 Moscow。但如果你把这些"正确答案的各种写法"加起来——0.24 + 0.11 + 0.13 = 0.48——正确答案的质量其实老老实实地躺在那里。

他们管这种情况叫承诺失败：$P_{\text{mass}} \geq 0.2$——模型在正确答案上分配了至少 20% 的概率质量——但最终输出是错的。

---

📊 2. 16% 到 47%——越大的模型，越敢"知道但不选"

这个数字本身已经够震撼了。横跨 Qwen 和 Llama 两个家族的 Instruct 版本，承诺失败在所有幻觉中的占比从 0.8B 的 16% 一路爬升到 70B 的 47%。

来看这张表（原文 Table 1 的翻译）：

Qwen3.5-0.8B Instruct：准确率 8.3%，幻觉中 16% 是承诺失败
Qwen3.5-9B Instruct：准确率 29.4%，幻觉中 32% 是承诺失败
Qwen2.5-72B Instruct：准确率 36.4%，幻觉中 41% 是承诺失败
Llama-3.1-8B Instruct：准确率 32.8%，幻觉中 33% 是承诺失败
Llama-3.1-70B Instruct：准确率 44.7%，幻觉中 47% 是承诺失败

小模型犯错更多是因为"压根不知道"。大模型犯错，有将近一半是因为"知道但没选对"。

承诺失败在 token 层面又分解为两类。第一类叫首 token 选择失败——第一个 token 就落在了一个完全无关的词上。比如答案是 Saint Petersburg，模型输出 "Mos"（走向 Moscow）。这类占承诺失败的大约 20%，而且比例随规模往上走。

第二类叫多 token 偏离——第一个 token 走在正确轨道的某个别名上，但后续 token 滑出了轨道。比如答案是 Adam Smith，模型输出 "Adam Levine"；答案是 George Washington（总统），模型输出 "George Washington Carver"（农业科学家）。这一类占承诺失败的约 80%。

也就是说，大模型的幻觉高度集中在"起手对，但多走了一步就歪了"这种模式上。

---

⚙️ 3. 并不是规模让人犯错——是指令微调

如果你只盯着 Instruct 模型看，会很容易得出一个结论：模型越大，越容易出现承诺失败。但实际上，Base 模型给出了完全不同的曲线。

在首 token 选择失败中，"错误 token 的分配概率"随规模的演变可以分为两条线：

Instruct 模型： 错误 token 的概率从 0.31（0.8B）单调上升到 0.57（72B）。Qwen 家族如此，Llama 家族也如此。

Base 模型： 同一条曲线是平的——在 0.26 到 0.33 之间波动，不随模型大小增长。

规模本身不会让模型"错误地更自信"。指令微调会。

论文用一个精巧的说辞来概括这件事：指令微调对答案承诺施加了"锐化"——它让模型的概率分布不再均匀弥散，而是集中到少数的、看起来"最对"的 token 上去。这种锐化像一把双刃剑：当它集中到正确答案上时，模型表现得又果断又准；当它集中到了错误答案上时，模型同样果断——只不过果断地错。

论文的原文是："使🉐有用性与自信幻觉成为同一底层特性的两个后果"（making helpfulness and confident hallucination two consequences of the same underlying disposition）。

---

🧊 4. 正确答案质量分散 vs 集中——结构的秘密

一个自然的问题：同样是 $P_{\text{mass}} \geq 0.2$ 的样本，为什么有些样本最终答对了，有些却成了承诺失败？

答案是质量分布的形态，而不是质量的大小。

论文把"首 token 选择失败"的样本和"正确答案正确但 $P_{\text{mass}}$ 相近"的样本放在一起比。两个组在正确答案概念上的总质量差不多，但结构迥异：

正确组：正确答案的各个别名 token 中，最高概率的那个平均达到 0.78。质量是高度集中的——所有别名集中到一个写法上，干净利落，一选即中。
失败组：最高概率的那个别名 token 平均只有 0.26。质量是分散的——Saint、St、C 各占一块，没有任何一个单 token 能压过对手的错误 token。

这个差距的效应量（Cohen's $d$）在所有 18 个模型中均为负值——0 个百分点例外。在 Instruct 模型中，$|d|$ 随规模从 1.34 增长到 4.30。

小模型的失败是"碎片化导致的"——正确答案的别名太多，单个赢不了。大模型的失败则是另一种：正确答案的别名已经坍缩到一个 token 上了（$D_2$ 接近 1.0），但一个错误概念的那个 token 被锐化得更狠（$D_3$ 甚至更高）。两种情况都源于同一个锐化机制——只是锐化程度不同，卡在了不同的失败模式上。

---

🧠 5. 模型在开口之前就已经"知道"了——藏在隐状态里

论文还有一个独立的、非常优雅的发现。

对 Instruct 模型而言，在还没生成第一个 token 之前——仅仅根据 $t=1$ 时刻的最后一层隐状态——用一个简单的逻辑回归探测器就能预测最终答案是对是错。MCQA 任务上的 AUROC 在 0.61–0.87 之间。

Base 模型做同样的事，AUROC 在 0.50–0.63 之间。

Instruct 模型在第一个 token 生成前就已经把"正确性信号"前置到了隐层表示中。尽管隐层信号的差距（+0.08）远小于输出层信号的差距（+0.29）——这说明指令微调的作用一部分在表征里，但大半在"从表征到 token 的投影"这一步——前置效果是真实存在的。

注意力分布也佐证了这一点：Instruct 模型在 $t=1$ 时给问题 token 分配了更高比例的注意力（+0.09），像是在"查词典"而非"生成铺垫句"。Base 模型则在 $t=1$ 时先生成填充词（如 "Answer:"、"The"），拖到后续 token 才真正寻找答案。

---

🔮 6. 这意味着什么——以及不敢声称的意思

这篇论文最诚实地在它的 Discussion 里写了这句话：$P_{\text{mass}}$ 是一个分析探针，不是一个可部署的检测器。它需要正确答案的别名集合作为输入——在实际场景中，你无法在模型还没回答之前就知道"正确答案有几种写法"。

但它的方法论启示比工具应用更有价值。

它给了幻觉研究一个全新的结构维度。过去我们问"模型知不知道答案"，现在我们可以问"模型有哪些版本的答案，它把质量集中在哪一个上"——这是两个不同的问题。过去我们把幻觉当作"知识缺失"，现在数据显示至少一部分幻觉是"决策在概率分布层面出了错"。

它给 aligning 工作敲了一记很妙的警钟。指令微调让模型更果断。果断地答对是好事，果断地答错就不是了。"有用"和"自信幻觉"是同一枚硬币的两个面——你不能只要一个而不要另一个，除非你能在"锐化"这一环节插入某种概念感知的矫正。

论文本身提出了两个自然的方向：一个是概念感知解码——把贪心解码的 argmax 从单个 token 提升到"语义等价的 token 族"上。另一个是更精细的承诺时刻识别——答案不是唯一的承诺点，可能还有"领域承诺"（Britain）、"实体承诺"（Nicola）、"修辞框架承诺"等不同层级，对应不同的干预窗口。

论文没有给出这些问题的答案。它只是给出了一个迄今为止最清晰的、用 token 级别分布数据支撑的切片——显示幻觉不是"不知道"，而是某种更深层的结构失败。这种失败的结构和规模，恰好伴随着我们最信任的那些"最强模型"一起增长。

---

参考文献

1. Yeom, J. et al. (2026). Hallucination as Commitment Failure: Larger LLMs Misfire Despite Knowing the Answer. arXiv:2605.22007.

2. Simhi, A. et al. (2025). Trust Me, I'm Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer. EMNLP 2025 Findings.

3. Farquhar, S. et al. (2024). Detecting Hallucinations in Large Language Models Using Semantic Entropy. *Nature*, 630, 625–630.

4. Calderon, N. et al. (2026). Empty Shelves or Lost Keys? Recall is the Bottleneck for Parametric Factuality. arXiv:2602.14080.

5. Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. NeurIPS 2022.

---

#LLM幻觉 #指令微调 #承诺失败 #智柴系统实验室🎙️