Gal Yona¹, Mor Geva², Yossi Matias¹
arXiv:2605.01428v1 [cs.CL] 2 May 2026
¹ Google Research, ² Tel Aviv University
1. 引言
尽管大型语言模型在事实可靠性方面取得了显著进步,但错误——通常被称为“幻觉”——仍然是生成式AI的主要关切,尤其是在LLM被期望在更复杂或更微妙的场景中提供帮助时。然而,即使在最简单的设置中——具有明确 ground truth 的事实性问答——没有外部工具的前沿模型仍然会产生幻觉。
本文的核心论点: 在这个领域,大多数事实性收益来自于扩展模型的知识边界(编码更多事实),而不是提高对该边界的意识(区分已知与未知)。我们推测后者本质上很困难:模型可能缺乏将真相与错误完美分离的判别能力,从而在消除幻觉和保持效用之间产生不可避免的权衡。
2. 核心概念:忠实不确定性(Faithful Uncertainty)
2.1 重新定义幻觉
传统观点:幻觉 = 任何错误
新框架:幻觉 = 自信的错误(没有适当限定的错误信息)
这揭示了一条超越“回答或弃权”二元对立的第三条路径:表达不确定性。
2.2 什么是忠实不确定性?
定义:将语言不确定性(模型所说的话)与内在不确定性(模型“相信”什么)对齐。
- 内在不确定性:模型对其断言语义含义的统计置信度
- 语言不确定性:模型在生成的响应中用语言表达的信心程度
例子对比:
| 类型 | 示例 |
|---|---|
| 严格事实性 | "Isa Genzken的Der Spiegel包含121张照片"(可能错误) |
| 弃权 | "我无法确认照片数量..."(损失效用) |
| 忠实不确定性 | "我不太确定,但我认为Isa Genzken的Der Spiegel包含121张照片"(保留效用,减轻伤害) |
3. 为什么幻觉持续存在?
3.1 理论上限
先前的工作认为,外在幻觉是自回归文本生成的结构性必然结果:
- 停机问题论证:没有可计算模型可以普遍验证所有事实的真值(Banerjee et al., 2025; Xu et al., 2024)
- 校准模型的必然性:Kalai & Vempala (2024) 证明校准模型在生成无法从其他事实推断真值的事实时必然产生幻觉
- 一致性与广度权衡:Kalavasis et al. (2025) 证明将幻觉率降低到临界阈值以下需要大幅减少输出多样性,迫使模型陷入模式崩溃
3.2 判别差距(The Discriminative Gap)
核心问题:知道平均错误率(校准)vs 知道哪些具体实例是错误(判别)
实证数据:
- AUROC(区分正确与错误答案的能力)在 0.70-0.85 范围内(Farquhar et al., 2024; Kang et al., 2025; Savage et al., 2025)
- 即使 AUROC = 0.85,将错误率从25%降至5%仍需丢弃约28%的有效答案
- 只有在 AUROC ≥ 0.95 时,效用税才变得可忽略,但目前没有方法达到这一水平
3.3 异常现象佐证
- 真实性探测的泛化能力差:模型内部往往缺乏区分正确与错误答案所需的信息(Levinstein & Herrmann, 2023; Marks & Tegmark; Orgad et al., 2025; Sky et al., 2024)
- 自信幻觉的存在:高内在置信度的事实错误(Simhi et al., 2025; Taubenfeld et al., 2025; Wang et al., 2025b)
- 高级监督的失败:训练模型“承认”错误的能力无法转移到幻觉上(Joglekar et al., 2025)
- 推理增加幻觉:扩展推理往往增加幻觉率并降低弃权能力(Jaech et al., 2024; Li & Ng, 2025; Yao et al., 2025)
3.4 实证权衡
在 SimpleQA Verified 数据集上的结果显示:
- 大多数前沿模型(蓝圈)沿对角线分布,优化覆盖率但幻觉率高
- 试图最大化事实性的模型(红圈)被迫向左移动,支付效用税
- 理想的“完美判别”区域(右上角)完全未被占据
4. 元认知(Metacognition)
4.1 定义
元认知:意识到自己不确定性并据此行动的能力。
- 直接交互:行动意味着诚实地沟通不确定性
- 智能体系统:行动意味着使用不确定性来指导何时搜索以及信任什么
4.2 为什么元认知对智能体至关重要
工具使用看似解决了知识问题:不需要编码每个事实,可以查找。但:
- 没有不确定性意识:无法确定何时调用工具(导致低效过度使用或危险使用不足)
- 无法权衡冲突信息:检索返回冲突或低质量信息时,无法适当权衡
工具解决存储问题,但引入控制问题:治理检索、验证和编排的过程。
4.3 人类元认知的类比
- 内省(introspection):评估自己的不确定性
- 调节(regulation):基于评估调整行为
当代智能体往往依赖静态启发式或过度设计的框架,而未来在开放环境中的智能体需要动态控制。
5. 研究建议
5.1 对元认知LLM的挑战
- 自举悖论:基础模型很少自然表达怀疑,SFT数据集是静态的,但“正确”的不确定性标签相对于模型当前状态是动态的
- 保留信号:标准对齐技术往往会诱导模式寻求行为,使对齐模型比基础模型更过度自信
- 置信度归因:单一标量置信度分数不够,需要区分不确定性的来源(偶然性、认知性、规范性)
- 因果评估:模型可能学会模仿忠实不确定性的风格而非实质
- 智能体评估:必须从端到端正确性转向基于过程的控制评估
5.2 更好的幻觉缓解评估
- 可视化效用-错误权衡曲线:暴露实现特定目标错误率所需牺牲的效用
- 展示前沿改进:拒绝基于单点的比较(如“我们达到了95%准确率”),证明在固定错误率下方法比基线产生更高效用
- 测量整体溢出效应:测试干预对一般能力的“附带损害”
6. 替代观点的回应
6.1 “我们不应该降低事实性的优先级”
回应:忠实不确定性不是知识扩展的替代品,而是补充。两者是协同的:更有知识且具备良好元认知的模型严格优于单独任一能力。
6.2 “用户更喜欢自信而非不确定性”
回应:忠实不确定性不针对创意领域(其中幻觉确实是可取的)。在长文本生成中,忠实不确定性不必侵入,可以通过标记特定代码行或特定日期来局部化表达。
6.3 “潜在真相存在,我们只需要更好的探针”
回应:寻找潜在真相是有价值的追求,但需要强假设:整个长尾事实的通用真相表示存在。鉴于§3.2的证据,我们对此持怀疑态度。忠实不确定性提供了具体的改进空间。
7. 讨论
- 完全消除幻觉由于判别差距面临根本性挑战
- 忠实不确定性作为补充目标:模型尽可能有知识,同时忠实表达任何剩余的不确定性
- 元认知意识随着LLM演变为智能体系统而变得越来越重要,作为稳健工具使用的控制层
- 与AI安全目标的连接:核心是诚实——要求模型准确代表其认知状态而非投射虚假信心
- 需要模型开发和用户期望的双重转变
参考文献
- Banerjee et al., 2025. LLMs will always hallucinate, and we need to live with this.
- Kalai & Vempala, 2024. Calibrated language models must hallucinate.
- Kalavasis et al., 2025. On the limits of language generation: Trade-offs between hallucination and mode-collapse.
- Farquhar et al., 2024. Detecting hallucinations in large language models using semantic entropy. Nature, 630(8017):625–630.
- Kang et al., 2025. Uncertainty quantification for hallucination detection in LLMs.
- Savage et al., 2025. Large language model uncertainty proxies for medical diagnosis.
- Levinstein & Herrmann, 2023. Still no lie detector for language models.
- Simhi et al., 2025. HACK: Hallucinations along certainty and knowledge axes.
- Taubenfeld et al., 2025. Confidence improves self-consistency in LLMs.
- Wang et al., 2025b. When bias pretends to be truth.
- Joglekar et al., 2025. Training LLMs for honesty via confessions.
- Jaech et al., 2024. OpenAI o1 system card.
- Li & Ng, 2025. The hallucination dilemma: Factuality-aware RL for large reasoning models.
- Yao et al., 2025. Are reasoning models more prone to hallucination?
- Haas et al., 2025. SimpleQA verified: A reliable factuality benchmark.
- Yona et al., 2024. Can LLMs faithfully express their intrinsic uncertainty in words?
- Liu et al., 2025. MetaFaith: Faithful natural language uncertainty expression in LLMs.
- Eikema et al., 2025. Teaching language models to faithfully express their uncertainty.
- Ji et al., 2025. Calibrating verbal uncertainty as a linear feature to reduce hallucinations.
- Podolak & Verma, 2025. Read your own mind: Reasoning helps surface self-confidence signals.
- Yoon et al., 2025. Reasoning models better express their confidence.
- Li et al., 2025b. Confidence is all you need: Few-shot RL fine-tuning of language models.
- Prabhudesai et al., 2025. Maximizing confidence alone improves reasoning.
- Wang et al., 2025a. ICPO: Intrinsic confidence-driven group relative preference optimization.
- Lin et al., 2025. AdaSearch: Balancing parametric knowledge and search in LLMs via RL.
- Qian et al., 2025. SMART: Self-aware agent for tool overuse mitigation.
- Xu et al., 2026. When to trust tools? Adaptive tool trust calibration.
- Yan et al., 2026. ACT wisely: Cultivating meta-cognitive tool use in agentic multimodal models.
- Rabanser et al., 2026. Towards a science of AI agent reliability.
- Delacroix et al., 2025. Beyond quantification: Navigating uncertainty in professional AI systems.
- He et al., 2025. Rewarding the unlikely: Lifting GRPO beyond distribution sharpening.
- Song et al., 2025b. Outcome-based exploration for LLM reasoning.
- Lindsey, 2025. Emergent introspective awareness in large language models.
- Ackerman, 2026. Evidence for limited metacognition in LLMs.
- Fleming & Lau, 2014. How to measure metacognition.
- Nelson, 1984. A comparison of current measures of feeling-of-knowing predictions.
- James, 1890. The principles of psychology.
- Son & Schwartz, 2002. The relation between metacognitive monitoring and control.
- Chentanez et al., 2004. Intrinsically motivated reinforcement learning.
- Stolfo et al., 2024. Confidence regulation neurons in language models.
- Kayal et al., 2025. The impact of intrinsic rewards on exploration in RL.
- Sukhija et al., 2025. Optimism via intrinsic rewards.
- Tao et al., 2025. Revisiting uncertainty estimation and calibration of LLMs.
- Wei et al., 2024a. Measuring short-form factuality in large language models.
- Wei et al., 2024b. Long-form factuality in large language models.
- Zhang et al., 2025a. FactGuard: Leveraging multi-agent systems for enhanced long-context LLM extraction.
- Zhang et al., 2025b. Siren's song in the AI ocean: A survey on hallucination in LLMs.
- Zhou et al., 2024. Relying on the unreliable: The impact of LLMs' reluctance to express uncertainty.
- Zhu et al., 2023. On the calibration of large language models and alignment.
#论文 #arXiv #AI #LLM #幻觉 #元认知 #不确定性 #GoogleResearch #TelAvivUniversity #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。