有一个想法在大语言模型的世界里流传了至少三年,朴素而诱人:如果模型在生成一段文字的时候"心里没底",那它说出来的东西就更可能是错的。反过来,如果模型特别自信,那它说的就应该是真的。这个想法的直觉逻辑很直接——我们在人的身上也见过类似的东西:一个人说话吞吞吐吐、频繁改口的时候,听众自然会对他的可靠性打折。
于是,大量的"不确定性估计"(Uncertainty Estimation, UE)方法被开发出来。它们去检查模型的 logit 概率、采样变异性、隐藏状态几何、甚至直接问模型"你确定吗"。一套完整的不确定性测量工具链已经成形。
2026 年 5 月,一篇新论文用 46 种不确定性估计器、4 个幻觉数据集、3 个模型,做了一个系统性的对照实验,问了一个所有使用这些工具的人都默认答案应该为"是"的问题:这些不确定性的信号,真的能用来检测幻觉吗?
答案是:大部分时候不能。能的时候,也取决于你测的是什么任务、什么模型。
| 项目 | 内容 |
|---|---|
| 论文标题 | Evaluating the Relevance of Uncertainty Estimators for LLM Hallucination |
| 作者 | Yedidia Agnimo, Anna Korba, Annabelle Blangero, Nicolas Chesneau, Karteek Alahari |
| 机构 | Ekimetrics, CREST/ENSAE (Institut Polytechnique de Paris), Inria (Centre Inria de l'Université Grenoble Alpes) |
| arXiv ID | 2605.27016 |
| 提交日期 | 2026年5月26日 |
| 分类 | cs.CL |
| 核心发现 | 不确定性估计(UE)与 LLM 幻觉之间的关联是高度可变且常常微弱的;没有任何一个估计器在所有任务上表现最优;数据集(幻觉类型)是估计器排名的首要差异来源,超过模型差异;将不确定性直接等同于幻觉检测信号的做法不可信 |
1. 📡 一个被所有人默认、但从未被系统验证的假设
这篇论文要验证的是一个"空气假设"——一个大家都靠直觉在用的、但从没有被放在一个完整的、可对照的实验框架里测试过的关系。
假设是:模型的不确定性↑ = 幻觉概率↑。
这个假设的吸引力在于:如果真的成立,那么幻觉检测就变成了一个标量比较问题——给一段回答算一个不确定性分数,分数高的就标记为可疑、交给人类审核、或者直接拒掉。
三年来,数十种不确定性估计方法被提出:信息论方法(看 logit 概率的熵)、采样方法(看多次采样之间的语义离散度)、隐藏状态方法(看注意力的模式)、密度方法(看到底离训练数据分布有多远)、反思方法(直接问模型"你确定吗")。但它们的设计目标从来不是"检测幻觉"——它们的设计目标是"量化置信度"。置信度和幻觉,是两回事。
这篇论文的贡献不在发明新的检测器。在于第一个站出来说:让我们测试一下,这个被所有人默认成立的关系,到底成立不成立。
2. 🔬 实验的设计:46 把尺子,4 种地面实况
论文的实验矩阵非常明确且干净。
46 种不确定性估计器,覆盖了五大类和一个黑盒类:信息/逻辑基方法(如 Maximum Sequence Probability、Perplexity、Token Entropy、Claim-Conditioned Probability)、白盒采样语义离散度方法(如 Semantic Entropy、Cocoa、SAR)、内部状态方法(如 AttentionScore、EigenScore)、训练基密度方法(如 Mahalanobis Distance)、反思方法(PTrue)、以及黑盒基于 NLI 图的语义离散度方法(如 Eccentricity、EigValLaplacian)。
3 个模型:Mistral-7B-Instruct、Llama-2-7B-Chat、Llama-2-13B-Chat。都是开源、可控、可复现的选择。
4 个数据集,覆盖两种幻觉定义:
- RAGTruth(内在幻觉):回答是否与推理时提供的上下文一致。哪怕回答在事实上正确,只要上下文里没有,就算幻觉
- PreciseWikiQA(外在幻觉,短格式):回答是否与预训练知识一致,短答案
- LongWiki(外在幻觉,长格式):同上,但需要评估的是一整段长文本
- NonExistentRefusal(外在幻觉,拒绝任务):模型面对一个不存在于预训练中的实体时,是否正确地拒绝回答
每种估计器在每个数据集-模型组合上产生一个不确定性分数,然后与幻觉的基准实况做对比。——不是"不确定性高的时候答案就错了",而是回到数据本身的定义:不确定性分数高的时候,回答里是否真的包含了不支持的内容。
3. 📊 核心结果:一条断裂的假设
发现一:任务变了,不确定性检测能力的排名就翻了。
论文的核心可视化(Figure 1)非常直白:横轴是每个估计器在 12 个(4 数据集 × 3 模型)面板中的排名标准差(越低越稳定),纵轴是平均 AUROC(越高越好)。理想情况下,好估计器应该在左上角——平均 AUROC 高、排名稳定。
实际情况是:CCP(Claim-Conditioned Probability)和 CocoaMSP 位于最好的平衡点——平均 AUROC 不错、排名较稳定。但即使是它们,在某些面板上也会掉到靠后的位置。MSP(Maximum Sequence Probability)平均 AUROC 更高,但排名方差也大——在它擅长的面板上它是第一名,在它不擅长的面板上它可能掉出前二十。
发现二:数据集决定一切,模型反在其次。
当模型固定、数据集切换时,估计器排名的平均一致性(Kendall's τ)只有 0.10 到 0.15——几乎不相关。同一个模型,在 RAGTruth 上最好的估计器,在 PreciseWikiQA 上可能毫无优势。
当数据集固定、模型切换时,一致性显著提高——LongWiki 上高达 τ = 0.71,PreciseWikiQA 上 τ = 0.62。这说明同一类任务(同一类幻觉定义)在不同模型之间具有一定的估计器可迁移性,但跨任务完全不适用。
发现三:在内在幻觉上,不确定性几乎不提供信息。
RAGTruth 测试的是上下文忠实度——这条信息是否被文档支持。在所有四类数据集中,RAGTruth 上的不确定性-幻觉检测能力是最弱的。信息基家族的 AUROC 也只是略高于 0.5 的随机基线。
而在 PreciseWikiQA(短格式 QA)上,几乎所有不确定估计器都远超随机基线。信息基和白盒采样家族达到了最高的 AUROC。
这个分化的含义很深:不确定性检测能抓住的是"模型不确定自己该说什么",但抓不住的是"模型错误地认为自己知道支持证据在哪"。 后一种情况——上下文中没有但模型编造了——正是典型的检索增强生成(RAG)幻觉。这种幻觉在不确定性估计器的数学结构里可能是完全不可见的。
4. 🧭 三种相关簇:信号从哪里来,比信号多强更重要
论文将表现最好的 7 个估计器分成了三个相关簇:
第一簇(逻辑/采样基):MSP、CCP、CocoaMSP、SAR。这些方法之间高度相关(ρ ≥ 0.78)。尽管它们的实现完全不同——MSP 只看序列概率,CCP 用 NLI 模型过滤 token 替代方案,CocoaMSP 在 MSP 上叠加采样语义离散度——但它们在实例排名上给出了高度一致的结果。
第二簇(NLI-图基):Eccentricity-c(基于矛盾)和 Eccentricity-e(基于蕴含)。两者之间中等相关(ρ = 0.36),说明矛盾型和蕴含型图构建策略捕捉了相似但非等价的信号。
第三簇(内部状态):AttentionScore,独成一个簇。它与其他两类几乎不相关——因为它不读 logit、不做采样、不建图,只看注意力模式。
这个聚类图的实际意义是:选三个不同簇的代表(而不是三个同一簇的变体),可以获得最大的信号互补性。而且,选哪一簇取决于你有的访问权限——有白盒就选第一簇,只有黑盒文本就选第二簇。
5. 📝 诚实的盲区
我清楚的是:
- 这篇论文以极其系统的方式推翻了一个广泛假设。46 个估计器 × 4 个数据集 × 3 个模型的交叉矩阵是到目前为此类研究中覆盖度最高的。
- "不确定性不直接等于幻觉概率"这个结论是有充分实验支持的。不同幻觉类型上的检测能力差异是核心证据——内在幻觉(编造上下文信息)和外在幻觉(与预训练知识不一致)在不确定性空间中表现出来的模式不同。
- 排名不稳定的发现对工程实践有直接指导:永远不要在某些任务上挑好一个估计器,然后就套到所有任务上。数据集特定的验证是必须的。
我不清楚的是:
- 实验中只用了 7B-13B 的开源模型。 对于 GPT-4、Claude、Gemini 等更大的闭源模型,不确定性-幻觉的关联强度是否可能根本不同?更大模型的隐藏状态结构可能有质的差异。论文没有提供任何跨规模推断的依据。
- "不确定性"到底在测什么? 论文把不确定性当作操作定义——每一种估计器是一种定义。但没有统一的理论来说明为什么信息基方法在短 QA 上表现好而密度方法在所有任务上都排在后五名。这种理论上的缺失意味着我们不知道当模型能力进化时,结论是否会改变。
- LLM-as-a-Judge 的信度。 LongWiki 和 NonExistentRefusal 的"基准实况"是用 Llama-3.1-70B 作为评估器生成的。论文自己也用了 AlignScore 作为参考对比来降低单一评估器偏差。但这个闭环——用一个 LLM 去判断另一个 LLM 是不是幻觉——并没有完全被打破。
- 生成长度的干扰。 论文没有完全排除一种可能:某些估计器在长文本生成上表现差,不是因为它们测不准不确定性,而是因为长文本自然地压缩了概率信号(序列越长,联合概率越低)。长度效应可能是一个混淆变量。
- 为什么注意力自注意力的信号是独立的? AttentionScore 与其他所有估计器的相关性最低——这表明注意力模式捕捉到了某些概率和语义离散度都捕捉不到的"另一类不确定信号"。这些信号是什么?论文没有解析。
6. ⚖️ 从信念到测试:一篇"叫停"论文的价值
在 AI 安全文献里,大多数论文都在说"我们发现了一个新方法,它能做得更好"。这篇论文说的是"我们测试了你已经在用的所有方法,它们在大多数情况下并不管用"。
这是一种更稀缺的贡献。
当整个社区都默认"不确定性 = 幻觉风险"是一个可以依赖的桥梁时,一篇系统性地证明这座桥在多个关键路口不存在——或只存在一小段——的论文,是一份必要的清醒剂。
它不是说"放弃不确定性检测"。它说的是:在把一个不确定性估计器部署到你的检测管线里之前,先在你自己的数据上验证它。 因为跨任务转移是大概率失败的,因为没有一个估计器是"通用"的,因为模型冒出来的幻觉里,有一部分——那些明知没有上下文支持但依旧流畅生成的内容——是现有的所有不确定性数学框架的结构性盲区。
最后一个事实,可能是这篇论文最沉重的赠言。
项目 内容 标题 Evaluating the Relevance of Uncertainty Estimators for LLM Hallucination 作者 Yedidia Agnimo(Ekimetrics & Inria), Anna Korba(CREST/ENSAE), Annabelle Blangero(Ekimetrics), Nicolas Chesneau(Ekimetrics), Karteek Alahari(Inria) arXiv ID 2605.27016 分类 cs.CL 核心贡献 (1) 首次系统性证明不确定性估计与幻觉检测之间的关联是条件性的、非通用的;(2) 在 46 种估计器 × 4 种数据集 × 3 种模型上建立了最大的幻觉-不确定性交叉矩阵;(3) 发现数据集(幻觉类型)是估计器排名的首要差异来源,远超模型差异;(4) 识别出内在幻觉(RAG 上下文编造)是 UE 方法的结构性盲区;(5) 将顶级估计器分为三个互补的信号簇,指导实际部署中的组合选型 关键局限 7B-13B 规模未延伸到更大模型;LLM-as-Judge 评估闭环未完全打破;生成长度效应未被隔离;AttentionScore 独立信号的内部机制未解析;缺乏统一理论解释为何某些方法在特定任务上持续失败
参考文献:
- Agnimo, Korba, Blangero, Chesneau & Alahari, "Evaluating the Relevance of Uncertainty Estimators for LLM Hallucination", arXiv:2605.27016, 2026.
- Bang et al., "HalluLens: LLM Hallucination Benchmark", ACL 2025.
- Niu et al., "RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models", ACL 2024.
- Kadavath et al., "Language Models (Mostly) Know What They Know", NeurIPS 2022.
- Farquhar et al., "Detecting Hallucinations in Large Language Models Using Semantic Entropy", Nature, 2024.
#LLM幻觉 #不确定性估计 #AI安全 #RAG #幻觉检测 #模型可靠性 #系统评估 #智柴
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。