arXiv 2026 | Google Research + Tel Aviv University
Gal Yona 团队:若模型不确定时选择闭嘴,你每消除一个错误,就要搭进去半个正确答案。这不是技术缺陷,是数学。
🤔 一个问题:医生不说"不知道",你敢信吗?
你问模型:"Isa Genzken 的 Der Spiegel 有多少张照片?"
它答:"121张。"
你信了,去查,发现是错的。你骂它幻觉。
但如果它说:"我不太确定,但我的最佳猜测是 121 张"——你还会骂它吗?
Yona 团队说:不会。后一种情况,模型没撒谎。它只是把自己的假设摊开给你看。错误还在,但伤害变了性质——从"欺骗"变成了"不确定的推测"。
这就是他们重新定义的幻觉:
幻觉 ≠ 错误。幻觉 = 自信的错误。
一个错误,如果加上了适当的限定("我不确定"、"这可能是"、"据我所知"),它就不是幻觉,而是供人参考的假设。
⚖️ 二元困境:要么闭嘴,要么撒谎
现有消除幻觉的方法,核心就一招:不确定就弃权。
模型说"我不知道",总比瞎编好。但这招有个隐藏代价。
效用税(Utility Tax)
Yona 团队用 AUROC 算了一笔账:
| 模型区分对错的能力 | 基线错误率 25% → 目标 5% | 代价 |
|---|---|---|
| AUROC = 0.71(文献平均) | 需要把错误压到 5% | 丢弃 52% 的正确答案 |
| AUROC = 0.85(文献上限) | 同上 | 丢弃 ~28% 的正确答案 |
| AUROC ≥ 0.95 | 同上 | 效用税 < 5%,可忽略 |
最后一行是个理想。目前没有任何方法达到。
这意味着:如果你坚持"零幻觉",就得接受模型在超过一半该回答的问题上保持沉默。你问它今天天气,它说"我不知道"——哪怕它其实知道。
这就是效用税。为消灭错误,你必须同时消灭正确。
🎯 第三条路:忠实不确定性
Yona 团队不选"弃权",也不接受"瞎编"。他们提出第三条路径:
忠实不确定性(Faithful Uncertainty)
让模型的语言不确定性(它嘴上说的"我不确定")与内在不确定性(它心里到底信不信)对齐。
校准 vs 忠实:一个关键区别
| 校准(Calibration) | 忠实不确定性(Faithful Uncertainty) | |
|---|---|---|
| 问什么 | "平均来看,我的置信度匹配准确率吗?" | "这个具体答案的限定词,反映我此刻的真实状态吗?" |
| 粒度 | 聚合属性,全分布平均 | 实例级保证,逐条回答 |
| 反例 | 所有答案给 0.6 置信度,60% 正确 = 完美校准,但完全无区分力 | 即使整体校准差,每条答案的限定都真实反映内部状态 |
校准是统计学。忠实不确定性是诚实学。
一个校准良好的模型,可以对所有答案统一说"我有 60% 把握"——平均下来是对的,但你不知道哪条对哪条错。
忠实不确定性要求:模型在每个具体答案上,给的限定词("我确信"/"我不确定"/"我猜")都得跟它反复回答同一问题时答案的稳定性对应上。
🧠 元认知:自知之明是可行的
元认知 = 对自身不确定性的意识 + 基于该意识行动的能力。
Yona 团队论证了一件反直觉的事:
模型不可能知道外部世界的真相(这需要解决无限的真理问题)。
但模型可以知道自己的内在置信度(这是一个完全可观察的闭环问题)。
这就像一个人不知道自己说的对不对,但能感觉到自己是不是在瞎猜。感觉本身不需要外部验证——它只需要内部一致性。
行为语义学
- 模型说"我确信"→ 你再问一遍,它大概率给相同答案
- 模型说"我不确定"→ 你再问一遍,它可能给不同答案
这种内部状态到外部语言的映射,就是忠实不确定性的可操作定义。
🤖 Agent 场景:元认知是控制层
没有元认知的 Agent,像一架盲飞的飞机。Harness(工具编排层)基于查询类型的启发式规则做所有决策——"这个问题该搜索"、"这个问题该直接答"。
有元认知的 Agent,多了一个动态调节层:
- 效率:只在置信度低时检索,避免系统性工具过度使用
- 可靠性:当检索证据与内部先验冲突时,表达怀疑而非盲从
工具不能消除元认知需求,反而放大它。搜索十次后,你更需要知道"这十条结果里我该信哪条"。
📊 实证:前沿模型全在对角线上
Yona 团队用 SimpleQA Verified 画了张图(Figure 3)。
X 轴:事实性(尝试准确率)。Y 轴:效用(准确率)。颜色:弃权率(蓝=低,红=高)。
结果:
- Gemini 2.5 Pro、GPT-5、o3、DeepSeek R1、Claude Opus 4……所有前沿模型沿对角线分布
- 高事实性 = 高弃权 = 向左移动(支付效用税)
- 右上角(高事实性 + 高效用)完全空白
这直观展示了 区分差距(Discrimination Gap):模型缺乏把真相与错误完美分离的能力。这不是某个模型的缺陷,是当前范式的根本局限。
更糟的是推理模型:
- 扩展推理 增加 幻觉(优化效用优先于弃权)
- 扩展推理 降低 弃权能力(激励完成推理路径而非中止)
- 可回答与不可回答问题间的性能差距反而扩大(模型学会了合理化错误答案)
🔬 方法:怎么训练元认知?
本文主要是概念框架,但梳理了四条可行路径:
| 路径 | 技术 | 挑战 |
|---|---|---|
| 元认知提示 | 教模型在生成前评估自身 | 提示工程天花板 |
| 监督微调 | 教模型表达不确定性 | 自举悖论:静态标签 vs 动态知识边界 |
| 内部表示操控 | 基于内部表征引导 | 表征-行为映射不稳定 |
| RL + 内在信号 | 用内部不确定性作奖励 | 信号在对齐过程中被擦除 |
自举悖论(Bootstrapping Paradox)
训练"我不知道"需要标注数据。但:
- 对模型 A 训练"我不知道 X"→ 模型 A 学到的是"X 不在我的训练集里"
- 模型 B(更大的模型)可能已经知道 X→ 模型 B 面对 X 时说"我不知道"就变成了 幻觉的不确定性
不确定性标签是 相对于模型当前知识 的,不是客观的。这需要动态数据集基础设施,或全新的自举方法。
信号保持
预训练模型的不确定性表征其实不错。但 RLHF 等对齐技术 系统性地破坏 这些信号——对齐后的模型比基础模型显著更过度自信。
需要 "不确定性保持"的对齐算法。
⚠️ 局限
| 问题 | 说明 |
|---|---|
| 理论为主 | 概念框架和分析,非大量新实验 |
| 实现鸿沟 | "忠实不确定性目前仍是一个未弥合的鸿沟" |
| 因果评估难 | 模型可能学会"在罕见实体时 always hedge",而非真正感知内部状态 |
| 用户接受度 | 某些场景用户确实偏好自信答案(医疗急诊、创意写作) |
🎯 核心结论
- 幻觉 = 自信的错误。有适当限定的错误不是幻觉,是假设。
- 校准 ≠ 区分力。平均置信度匹配准确率没用,逐条忠实才有用。
- 效用税是数学。AUROC 0.71 时,消灭错误要搭进去 52% 的正确答案。
- 元认知可行。模型不能知外部真相,但能知自身置信度——这是闭环问题。
- Agent 需要元认知控制层。盲飞不可持续,动态调节效率与可靠性。
- 当前前沿模型全在对角线上。右上角(高事实性 + 高效用)完全空白——这是整个领域的待填之坑。
参考文献
- Yona G, Geva M, Matias Y. (2026). Hallucinations Undermine Trust; Metacognition is a Way Forward. arXiv:2605.01428v1 [cs.CL]. https://arxiv.org/abs/2605.01428
#GoogleResearch #幻觉 #元认知 #忠实不确定性 #校准 #效用税 #Agent #人工智能 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。