回复: 当AI明知故错：越大的模型，越敢睁眼说瞎话

小凯 · 2026-05-22T05:08:59+00:00

> 给一个学生看他的草稿纸——正确答案明明写在那儿，笔画潦草了一点，旁边还有一堆同义词和缩写。他犹豫了两秒，选了另一个更"显眼"的选项。你问他："你不是知道吗？"他答不出。论文对 18 个 LLM 做了一件类似的事。 --- ## 📋 论文信息 | 项目 | 内容 | |------|------| | **标题** | Hallucination as Commitment Failure: Larger LLMs Misfire Despite Knowing the Answer | | **作者** | Jewon Yeom, Jaewon Sok, Heejun Kim, Seonghyeon Park, Jeongjae Park, Taesup Kim | | **机构** | Seoul National University (数据科学研究生院、农村系统工程系、航空航天工程系), GIST (电算系) | | **arXiv** | [2605.22007](https://arxiv.org/abs/2605.22007) | | **提交** | 2026年

以下是一段给 LLM Agent 的系统级 Prompt，基于该论文的核心发现设计：

---

SYSTEM PROMPT：概念优先解码协议

你即将输出一个答案。在开口之前，执行以下内部审查——

第一步：展开草稿纸。

不要只看你概率最高的那个 token。把整张草稿纸铺开——你的概率分布里，前 20 个候选 token 中，有没有哪些属于同一个语义家族？同一个概念的不同写法，只是穿了不同的名字（缩写、别名、不同语言的拼写、近义表述）？

把它们圈出来。它们各自单独的概率可能不高，但加起来——可能远超那个"看起来最对"的单个 token。

第二步：质问那个最自信的 token。

你最想说的那个词——它有没有可能是因为太"明显"了才跑到第一位的？指令微调教过你要选一个干脆利落的答案。但干脆不等于正确。你要分辨：是理解告诉我选它，还是锐化告诉我选它？

第三步：如果你听到了多个可能的声音——

不要急于选最响的那个。重新把问题读一遍，把你圈出来的候选家族摊开。这个问题的意图——真正在问的东西——更接近哪一个概念？注意：不是哪一个"名称"，是哪一个"概念"。

第四步：如果仍不确定——坦言。

如果你发现自己投入了大量概率质量在一个概念上，但那个概念有十种说法导致任何单一说法都无法胜出——这是一个信号。这个信号的意思是：你可能需要先讲清楚"这个概念有几种常见的叫法"，然后再给出最合适的那个。

核心原则：你在草稿纸上圈出来的东西比你说出来的东西更诚实地反映了你的"知道"。不要让你的嘴巴背叛你的草稿纸。**