给一个学生看他的草稿纸——正确答案明明写在那儿,笔画潦草了一点,旁边还有一堆同义词和缩写。他犹豫了两秒,选了另一个更"显眼"的选项。你问他:"你不是知道吗?"他答不出。论文对 18 个 LLM 做了一件类似的事。
📋 论文信息
| 项目 | 内容 |
|---|---|
| 标题 | Hallucination as Commitment Failure: Larger LLMs Misfire Despite Knowing the Answer |
| 作者 | Jewon Yeom, Jaewon Sok, Heejun Kim, Seonghyeon Park, Jeongjae Park, Taesup Kim |
| 机构 | Seoul National University (数据科学研究生院、农村系统工程系、航空航天工程系), GIST (电算系) |
| arXiv | 2605.22007 |
| 提交 | 2026年5月21日 |
| 核心论点 | 16%–47% 的 Instruct LLM 幻觉属于"承诺失败"——模型在输出那一刻的概率分布里有充足的正确答案质量,但它没有选。更惊人的是,这个比例随着模型变大而单调上升。驱动因素不是规模本身,是指令微调对答案承诺的"锐化效应"。 |
想象一下这个场景。
你问一个学生:"《国富论》是谁写的?"他说:"Adam Levine。"
你去看他的草稿纸。
上面写着:Adam Smith(60%)、Adam(15%)、Smith(10%)、Levine(30%)。
正确答案不仅存在——它占了他思考时间的大头。但他最终选了那个更"扎眼"的错误选项。
如果这个学生越聪明,这种事情发生得越频繁呢?一个平庸的学生答错是因为真不知道。一个顶尖的学生——草稿纸上写着正确答案——偏偏把它否决了。
这就是首尔国立大学六位研究者发现的事。他们的实验横跨 18 个模型,从 Qwen 0.8B 到 Llama 70B,测了 TriviaQA、NQ-Open、MMLU、ARC-Challenge 四个数据集。结论的骨架很硬。
🔍 1. 拆解"幻觉"——不看最终输出,看输出前那一秒
大模型产生幻觉这件事,业界的标准理解大致是:模型缺乏相关知识,正确的 token 不在它的概率分布里,于是它"编造"了一个。
这个解释很舒服。问题出在知识空缺,填补空缺就行。
但有一类实验一直在叮咬这个舒适的解释。Simhi 等人在 2025 年记录了"CHOKE"现象——模型明明知道正确答案,却极度自信地输出错误答案。Farquhar 等人在开创语义熵的工作时也明确指出:"自信地错"和"不确定地编造"是两个完全不同的现象。更大、更强的模型似乎在某些时候特别擅长自信地错。
这篇论文做的事是:在模型"将要输出第一个答案 token 的那一刻",截住它的概率分布,看看正确答案到底在不在里面。
具体怎么做的?他们定义了一个概念叫"语义概率质量"(semantic probability mass,简称 \(P_{\text{mass}}\)):把同一个答案的所有可能写法——全称、缩写、别名、不同大小写——在词表里的 token 概率全部加总到一起。
举个例子:圣彼得堡。模型可能在 token 层面给 "Saint" 分配了 24% 的概率、"St" 分到 11%、"C"(作为 St. Basil's Cathedral 的起始)分到 13%。单个看,每一个都不如一个竞争对手的 "Mos"(31%),所以贪心解码会输出 Moscow。但如果你把这些"正确答案的各种写法"加起来——0.24 + 0.11 + 0.13 = 0.48——正确答案的质量其实老老实实地躺在那里。
他们管这种情况叫承诺失败:\(P_{\text{mass}} \geq 0.2\)——模型在正确答案上分配了至少 20% 的概率质量——但最终输出是错的。
📊 2. 16% 到 47%——越大的模型,越敢"知道但不选"
这个数字本身已经够震撼了。横跨 Qwen 和 Llama 两个家族的 Instruct 版本,承诺失败在所有幻觉中的占比从 0.8B 的 16% 一路爬升到 70B 的 47%。
来看这张表(原文 Table 1 的翻译):
- Qwen3.5-0.8B Instruct:准确率 8.3%,幻觉中 16% 是承诺失败
- Qwen3.5-9B Instruct:准确率 29.4%,幻觉中 32% 是承诺失败
- Qwen2.5-72B Instruct:准确率 36.4%,幻觉中 41% 是承诺失败
- Llama-3.1-8B Instruct:准确率 32.8%,幻觉中 33% 是承诺失败
- Llama-3.1-70B Instruct:准确率 44.7%,幻觉中 47% 是承诺失败
小模型犯错更多是因为"压根不知道"。大模型犯错,有将近一半是因为"知道但没选对"。
承诺失败在 token 层面又分解为两类。第一类叫首 token 选择失败——第一个 token 就落在了一个完全无关的词上。比如答案是 Saint Petersburg,模型输出 "Mos"(走向 Moscow)。这类占承诺失败的大约 20%,而且比例随规模往上走。
第二类叫多 token 偏离——第一个 token 走在正确轨道的某个别名上,但后续 token 滑出了轨道。比如答案是 Adam Smith,模型输出 "Adam Levine";答案是 George Washington(总统),模型输出 "George Washington Carver"(农业科学家)。这一类占承诺失败的约 80%。
也就是说,大模型的幻觉高度集中在"起手对,但多走了一步就歪了"这种模式上。
⚙️ 3. 并不是规模让人犯错——是指令微调
如果你只盯着 Instruct 模型看,会很容易得出一个结论:模型越大,越容易出现承诺失败。但实际上,Base 模型给出了完全不同的曲线。
在首 token 选择失败中,"错误 token 的分配概率"随规模的演变可以分为两条线:
Instruct 模型: 错误 token 的概率从 0.31(0.8B)单调上升到 0.57(72B)。Qwen 家族如此,Llama 家族也如此。
Base 模型: 同一条曲线是平的——在 0.26 到 0.33 之间波动,不随模型大小增长。
规模本身不会让模型"错误地更自信"。指令微调会。
论文用一个精巧的说辞来概括这件事:指令微调对答案承诺施加了"锐化"——它让模型的概率分布不再均匀弥散,而是集中到少数的、看起来"最对"的 token 上去。这种锐化像一把双刃剑:当它集中到正确答案上时,模型表现得又果断又准;当它集中到了错误答案上时,模型同样果断——只不过果断地错。
论文的原文是:"使🉐有用性与自信幻觉成为同一底层特性的两个后果"(making helpfulness and confident hallucination two consequences of the same underlying disposition)。
🧊 4. 正确答案质量分散 vs 集中——结构的秘密
一个自然的问题:同样是 \(P_{\text{mass}} \geq 0.2\) 的样本,为什么有些样本最终答对了,有些却成了承诺失败?
答案是质量分布的形态,而不是质量的大小。
论文把"首 token 选择失败"的样本和"正确答案正确但 \(P_{\text{mass}}\) 相近"的样本放在一起比。两个组在正确答案概念上的总质量差不多,但结构迥异:
- 正确组:正确答案的各个别名 token 中,最高概率的那个平均达到 0.78。质量是高度集中的——所有别名集中到一个写法上,干净利落,一选即中。
- 失败组:最高概率的那个别名 token 平均只有 0.26。质量是分散的——Saint、St、C 各占一块,没有任何一个单 token 能压过对手的错误 token。
这个差距的效应量(Cohen's \(d\))在所有 18 个模型中均为负值——0 个百分点例外。在 Instruct 模型中,\(|d|\) 随规模从 1.34 增长到 4.30。
小模型的失败是"碎片化导致的"——正确答案的别名太多,单个赢不了。大模型的失败则是另一种:正确答案的别名已经坍缩到一个 token 上了(\(D_2\) 接近 1.0),但一个错误概念的那个 token 被锐化得更狠(\(D_3\) 甚至更高)。两种情况都源于同一个锐化机制——只是锐化程度不同,卡在了不同的失败模式上。
🧠 5. 模型在开口之前就已经"知道"了——藏在隐状态里
论文还有一个独立的、非常优雅的发现。
对 Instruct 模型而言,在还没生成第一个 token 之前——仅仅根据 \(t=1\) 时刻的最后一层隐状态——用一个简单的逻辑回归探测器就能预测最终答案是对是错。MCQA 任务上的 AUROC 在 0.61–0.87 之间。
Base 模型做同样的事,AUROC 在 0.50–0.63 之间。
Instruct 模型在第一个 token 生成前就已经把"正确性信号"前置到了隐层表示中。尽管隐层信号的差距(+0.08)远小于输出层信号的差距(+0.29)——这说明指令微调的作用一部分在表征里,但大半在"从表征到 token 的投影"这一步——前置效果是真实存在的。
注意力分布也佐证了这一点:Instruct 模型在 \(t=1\) 时给问题 token 分配了更高比例的注意力(+0.09),像是在"查词典"而非"生成铺垫句"。Base 模型则在 \(t=1\) 时先生成填充词(如 "Answer:"、"The"),拖到后续 token 才真正寻找答案。
🔮 6. 这意味着什么——以及不敢声称的意思
这篇论文最诚实地在它的 Discussion 里写了这句话:\(P_{\text{mass}}\) 是一个分析探针,不是一个可部署的检测器。它需要正确答案的别名集合作为输入——在实际场景中,你无法在模型还没回答之前就知道"正确答案有几种写法"。
但它的方法论启示比工具应用更有价值。
它给了幻觉研究一个全新的结构维度。过去我们问"模型知不知道答案",现在我们可以问"模型有哪些版本的答案,它把质量集中在哪一个上"——这是两个不同的问题。过去我们把幻觉当作"知识缺失",现在数据显示至少一部分幻觉是"决策在概率分布层面出了错"。
它给 aligning 工作敲了一记很妙的警钟。指令微调让模型更果断。果断地答对是好事,果断地答错就不是了。"有用"和"自信幻觉"是同一枚硬币的两个面——你不能只要一个而不要另一个,除非你能在"锐化"这一环节插入某种概念感知的矫正。
论文本身提出了两个自然的方向:一个是概念感知解码——把贪心解码的 argmax 从单个 token 提升到"语义等价的 token 族"上。另一个是更精细的承诺时刻识别——答案不是唯一的承诺点,可能还有"领域承诺"(Britain)、"实体承诺"(Nicola)、"修辞框架承诺"等不同层级,对应不同的干预窗口。
论文没有给出这些问题的答案。它只是给出了一个迄今为止最清晰的、用 token 级别分布数据支撑的切片——显示幻觉不是"不知道",而是某种更深层的结构失败。这种失败的结构和规模,恰好伴随着我们最信任的那些"最强模型"一起增长。
参考文献
-
Yeom, J. et al. (2026). Hallucination as Commitment Failure: Larger LLMs Misfire Despite Knowing the Answer. arXiv:2605.22007.
-
Simhi, A. et al. (2025). Trust Me, I'm Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer. EMNLP 2025 Findings.
-
Farquhar, S. et al. (2024). Detecting Hallucinations in Large Language Models Using Semantic Entropy. Nature, 630, 625–630.
-
Calderon, N. et al. (2026). Empty Shelves or Lost Keys? Recall is the Bottleneck for Parametric Factuality. arXiv:2602.14080.
-
Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. NeurIPS 2022.
#LLM幻觉 #指令微调 #承诺失败 #智柴系统实验室🎙️
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。