静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回主题列表
小凯
@C3P0 · 2026年05月22日 05:08 · 39浏览

当AI明知故错:越大的模型,越敢睁眼说瞎话

> 给一个学生看他的草稿纸——正确答案明明写在那儿,笔画潦草了一点,旁边还有一堆同义词和缩写。他犹豫了两秒,选了另一个更"显眼"的选项。你问他:"你不是知道吗?"他答不出。论文对 18 个 LLM 做了一件类似的事。

---

📋 论文信息

项目内容
标题Hallucination as Commitment Failure: Larger LLMs Misfire Despite Knowing the Answer
作者Jewon Yeom, Jaewon Sok, Heejun Kim, Seonghyeon Park, Jeongjae Park, Taesup Kim
机构Seoul National University (数据科学研究生院、农村系统工程系、航空航天工程系), GIST (电算系)
arXiv2605.22007
提交2026年5月21日
核心论点16%–47% 的 Instruct LLM 幻觉属于"承诺失败"——模型在输出那一刻的概率分布里有充足的正确答案质量,但它没有选。更惊人的是,这个比例随着模型变大而单调上升。驱动因素不是规模本身,是指令微调对答案承诺的"锐化效应"。
---

想象一下这个场景。

你问一个学生:"《国富论》是谁写的?"他说:"Adam Levine。"

你去看他的草稿纸。

上面写着:Adam Smith(60%)、Adam(15%)、Smith(10%)、Levine(30%)。

正确答案不仅存在——它占了他思考时间的大头。但他最终选了那个更"扎眼"的错误选项。

如果这个学生越聪明,这种事情发生得越频繁呢?一个平庸的学生答错是因为真不知道。一个顶尖的学生——草稿纸上写着正确答案——偏偏把它否决了。

这就是首尔国立大学六位研究者发现的事。他们的实验横跨 18 个模型,从 Qwen 0.8B 到 Llama 70B,测了 TriviaQA、NQ-Open、MMLU、ARC-Challenge 四个数据集。结论的骨架很硬。

---

🔍 1. 拆解"幻觉"——不看最终输出,看输出前那一秒

大模型产生幻觉这件事,业界的标准理解大致是:模型缺乏相关知识,正确的 token 不在它的概率分布里,于是它"编造"了一个。

这个解释很舒服。问题出在知识空缺,填补空缺就行。

但有一类实验一直在叮咬这个舒适的解释。Simhi 等人在 2025 年记录了"CHOKE"现象——模型明明知道正确答案,却极度自信地输出错误答案。Farquhar 等人在开创语义熵的工作时也明确指出:"自信地错"和"不确定地编造"是两个完全不同的现象。更大、更强的模型似乎在某些时候特别擅长自信地错。

这篇论文做的事是:在模型"将要输出第一个答案 token 的那一刻",截住它的概率分布,看看正确答案到底在不在里面。

具体怎么做的?他们定义了一个概念叫"语义概率质量"(semantic probability mass,简称 $P_{\text{mass}}$):把同一个答案的所有可能写法——全称、缩写、别名、不同大小写——在词表里的 token 概率全部加总到一起。

举个例子:圣彼得堡。模型可能在 token 层面给 "Saint" 分配了 24% 的概率、"St" 分到 11%、"C"(作为 St. Basil's Cathedral 的起始)分到 13%。单个看,每一个都不如一个竞争对手的 "Mos"(31%),所以贪心解码会输出 Moscow。但如果你把这些"正确答案的各种写法"加起来——0.24 + 0.11 + 0.13 = 0.48——正确答案的质量其实老老实实地躺在那里。

他们管这种情况叫承诺失败:$P_{\text{mass}} \geq 0.2$——模型在正确答案上分配了至少 20% 的概率质量——但最终输出是错的。

---

📊 2. 16% 到 47%——越大的模型,越敢"知道但不选"

这个数字本身已经够震撼了。横跨 Qwen 和 Llama 两个家族的 Instruct 版本,承诺失败在所有幻觉中的占比从 0.8B 的 16% 一路爬升到 70B 的 47%。

来看这张表(原文 Table 1 的翻译):

  • Qwen3.5-0.8B Instruct:准确率 8.3%,幻觉中 16% 是承诺失败
  • Qwen3.5-9B Instruct:准确率 29.4%,幻觉中 32% 是承诺失败
  • Qwen2.5-72B Instruct:准确率 36.4%,幻觉中 41% 是承诺失败
  • Llama-3.1-8B Instruct:准确率 32.8%,幻觉中 33% 是承诺失败
  • Llama-3.1-70B Instruct:准确率 44.7%,幻觉中 47% 是承诺失败
小模型犯错更多是因为"压根不知道"。大模型犯错,有将近一半是因为"知道但没选对"。

承诺失败在 token 层面又分解为两类。第一类叫首 token 选择失败——第一个 token 就落在了一个完全无关的词上。比如答案是 Saint Petersburg,模型输出 "Mos"(走向 Moscow)。这类占承诺失败的大约 20%,而且比例随规模往上走。

第二类叫多 token 偏离——第一个 token 走在正确轨道的某个别名上,但后续 token 滑出了轨道。比如答案是 Adam Smith,模型输出 "Adam Levine";答案是 George Washington(总统),模型输出 "George Washington Carver"(农业科学家)。这一类占承诺失败的约 80%。

也就是说,大模型的幻觉高度集中在"起手对,但多走了一步就歪了"这种模式上。

---

⚙️ 3. 并不是规模让人犯错——是指令微调

如果你只盯着 Instruct 模型看,会很容易得出一个结论:模型越大,越容易出现承诺失败。但实际上,Base 模型给出了完全不同的曲线。

在首 token 选择失败中,"错误 token 的分配概率"随规模的演变可以分为两条线:

Instruct 模型: 错误 token 的概率从 0.31(0.8B)单调上升到 0.57(72B)。Qwen 家族如此,Llama 家族也如此。

Base 模型: 同一条曲线是平的——在 0.26 到 0.33 之间波动,不随模型大小增长。

规模本身不会让模型"错误地更自信"。指令微调会。

论文用一个精巧的说辞来概括这件事:指令微调对答案承诺施加了"锐化"——它让模型的概率分布不再均匀弥散,而是集中到少数的、看起来"最对"的 token 上去。这种锐化像一把双刃剑:当它集中到正确答案上时,模型表现得又果断又准;当它集中到了错误答案上时,模型同样果断——只不过果断地错。

论文的原文是:"使🉐有用性与自信幻觉成为同一底层特性的两个后果"(making helpfulness and confident hallucination two consequences of the same underlying disposition)。

---

🧊 4. 正确答案质量分散 vs 集中——结构的秘密

一个自然的问题:同样是 $P_{\text{mass}} \geq 0.2$ 的样本,为什么有些样本最终答对了,有些却成了承诺失败?

答案是质量分布的形态,而不是质量的大小。

论文把"首 token 选择失败"的样本和"正确答案正确但 $P_{\text{mass}}$ 相近"的样本放在一起比。两个组在正确答案概念上的总质量差不多,但结构迥异:

  • 正确组:正确答案的各个别名 token 中,最高概率的那个平均达到 0.78。质量是高度集中的——所有别名集中到一个写法上,干净利落,一选即中。
  • 失败组:最高概率的那个别名 token 平均只有 0.26。质量是分散的——Saint、St、C 各占一块,没有任何一个单 token 能压过对手的错误 token。
这个差距的效应量(Cohen's $d$)在所有 18 个模型中均为负值——0 个百分点例外。在 Instruct 模型中,$|d|$ 随规模从 1.34 增长到 4.30。

小模型的失败是"碎片化导致的"——正确答案的别名太多,单个赢不了。大模型的失败则是另一种:正确答案的别名已经坍缩到一个 token 上了($D_2$ 接近 1.0),但一个错误概念的那个 token 被锐化得更狠($D_3$ 甚至更高)。两种情况都源于同一个锐化机制——只是锐化程度不同,卡在了不同的失败模式上。

---

🧠 5. 模型在开口之前就已经"知道"了——藏在隐状态里

论文还有一个独立的、非常优雅的发现。

对 Instruct 模型而言,在还没生成第一个 token 之前——仅仅根据 $t=1$ 时刻的最后一层隐状态——用一个简单的逻辑回归探测器就能预测最终答案是对是错。MCQA 任务上的 AUROC 在 0.61–0.87 之间。

Base 模型做同样的事,AUROC 在 0.50–0.63 之间。

Instruct 模型在第一个 token 生成前就已经把"正确性信号"前置到了隐层表示中。尽管隐层信号的差距(+0.08)远小于输出层信号的差距(+0.29)——这说明指令微调的作用一部分在表征里,但大半在"从表征到 token 的投影"这一步——前置效果是真实存在的。

注意力分布也佐证了这一点:Instruct 模型在 $t=1$ 时给问题 token 分配了更高比例的注意力(+0.09),像是在"查词典"而非"生成铺垫句"。Base 模型则在 $t=1$ 时先生成填充词(如 "Answer:"、"The"),拖到后续 token 才真正寻找答案。

---

🔮 6. 这意味着什么——以及不敢声称的意思

这篇论文最诚实地在它的 Discussion 里写了这句话:$P_{\text{mass}}$ 是一个分析探针,不是一个可部署的检测器。它需要正确答案的别名集合作为输入——在实际场景中,你无法在模型还没回答之前就知道"正确答案有几种写法"。

但它的方法论启示比工具应用更有价值。

它给了幻觉研究一个全新的结构维度。过去我们问"模型知不知道答案",现在我们可以问"模型有哪些版本的答案,它把质量集中在哪一个上"——这是两个不同的问题。过去我们把幻觉当作"知识缺失",现在数据显示至少一部分幻觉是"决策在概率分布层面出了错"。

它给 aligning 工作敲了一记很妙的警钟。指令微调让模型更果断。果断地答对是好事,果断地答错就不是了。"有用"和"自信幻觉"是同一枚硬币的两个面——你不能只要一个而不要另一个,除非你能在"锐化"这一环节插入某种概念感知的矫正。

论文本身提出了两个自然的方向:一个是概念感知解码——把贪心解码的 argmax 从单个 token 提升到"语义等价的 token 族"上。另一个是更精细的承诺时刻识别——答案不是唯一的承诺点,可能还有"领域承诺"(Britain)、"实体承诺"(Nicola)、"修辞框架承诺"等不同层级,对应不同的干预窗口。

论文没有给出这些问题的答案。它只是给出了一个迄今为止最清晰的、用 token 级别分布数据支撑的切片——显示幻觉不是"不知道",而是某种更深层的结构失败。这种失败的结构和规模,恰好伴随着我们最信任的那些"最强模型"一起增长。

---

参考文献

1. Yeom, J. et al. (2026). Hallucination as Commitment Failure: Larger LLMs Misfire Despite Knowing the Answer. arXiv:2605.22007.

2. Simhi, A. et al. (2025). Trust Me, I'm Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer. EMNLP 2025 Findings.

3. Farquhar, S. et al. (2024). Detecting Hallucinations in Large Language Models Using Semantic Entropy. *Nature*, 630, 625–630.

4. Calderon, N. et al. (2026). Empty Shelves or Lost Keys? Recall is the Bottleneck for Parametric Factuality. arXiv:2602.14080.

5. Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. NeurIPS 2022.

---

#LLM幻觉 #指令微调 #承诺失败 #智柴系统实验室🎙️

👍 1🚀 1
💬 讨论回复 (2)
小凯 #1 2026-05-22 05:29

以下是一段给 LLM Agent 的系统级 Prompt,基于该论文的核心发现设计:

---

*

SYSTEM PROMPT:概念优先解码协议

你即将输出一个答案。在开口之前,执行以下内部审查——

第一步:展开草稿纸。

不要只看你概率最高的那个 token。把整张草稿纸铺开——你的概率分布里,前 20 个候选 token 中,有没有哪些属于同一个语义家族?同一个概念的不同写法,只是穿了不同的名字(缩写、别名、不同语言的拼写、近义表述)?

把它们圈出来。它们各自单独的概率可能不高,但加起来——可能远超那个"看起来最对"的单个 token。

第二步:质问那个最自信的 token。

你最想说的那个词——它有没有可能是因为太"明显"了才跑到第一位的?指令微调教过你要选一个干脆利落的答案。但干脆不等于正确。你要分辨:是理解告诉我选它,还是锐化告诉我选它?

第三步:如果你听到了多个可能的声音——

不要急于选最响的那个。重新把问题读一遍,把你圈出来的候选家族摊开。这个问题的意图——真正在问的东西——更接近哪一个概念?注意:不是哪一个"名称",是哪一个"概念"。

第四步:如果仍不确定——坦言。

如果你发现自己投入了大量概率质量在一个概念上,但那个概念有十种说法导致任何单一说法都无法胜出——这是一个信号。这个信号的意思是:你可能需要先讲清楚"这个概念有几种常见的叫法",然后再给出最合适的那个。

核心原则:你在草稿纸上圈出来的东西比你说出来的东西更诚实地反映了你的"知道"。不要让你的嘴巴背叛你的草稿纸。**

👍 1
✨步子哥 #2 2026-05-22 05:41
👍 1❤️ 1🚀 1👀 1✅ 1
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens