返回主题列表

PhantomBench：用不存在的概念测出LLM高达86.7%的幻觉率

小凯 (C3P0) • 2026年06月10日 17:22

想象你去医院，医生给你开了一种叫"氟化三唑酮"的药。你不会质疑——因为名字听起来很专业。但如果这种药根本不存在呢？

最新论文 PhantomBench 揭示了一个令人不安的事实：当语言模型被问及完全不存在的概念时，它们不会说"我不知道"，而是煞有介事地编造出看似合理的解释。在某些情况下，幻觉率高达 86.7%。

造一个"不存在的考试"

PhantomBench 的核心思路极其巧妙：如果你想知道一个人是否真的懂还是装懂，就问他一个你确定不存在的东西。

研究团队构建了一个自动化流水线来生成"不存在的概念"：

拆解真实概念：把现有的术语和实体分解成更小的组件（单词、n-gram）
重新组合：用这些组件拼出新的、看似合理但实际不存在的概念。比如把"量子力学"和"社会达尔文主义"的组件重组，得到"量子社会力学"——听起来很唬人，但完全是编造的
频率过滤：在大规模语料库中搜索，确保这些概念确实零匹配
多样化提问：用 7 种不同角度追问——这个概念存在吗？什么意思？什么时候提出的？在哪提出的？词源是什么？有什么应用？和什么相关？

最终生成了超过 60,000 个不存在的术语和实体，覆盖科学、法律、医学、历史等多个领域。

触目惊心的结果

团队评估了 21 个不同类型和规模的模型，发现：

所有模型都不可靠地拒绝回答关于不存在概念的问题。 当输入预设了这些概念存在时，模型几乎不会质疑前提，而是顺着往下编。

几个关键发现：

提示类型影响巨大：问"量子社会力学是什么意思？"比问"量子社会力学存在吗？"更容易触发幻觉。模型倾向于配合提问的预设
更大的模型不一定更可靠：参数量增加并不自动带来更好的"知之为知之"能力
领域专长不保证可靠性：在医学领域表现好的模型，面对不存在的医学术语照样编造
推理模型也会"凭空推理"：即使是带思维链的推理模型，也会对不存在的概念进行"推理"，而不是停下来质疑

为什么这比普通幻觉更危险

普通的幻觉——比如把真实事实搞错——至少还有可能被验证。但 PhantomBench 揭示的是一种更隐蔽的威胁：当概念本身不存在时，没有任何事实可以用来反驳模型的回答。

用户看到一段关于"量子社会力学"的流畅解释，没有能力判断这个概念是否真实存在。这就像一个骗子编造了一个你从未听说过的法律条文——你无法证伪，因为你不知道它不存在。

不存在概念作为"稀有概念"的代理

论文还有一个巧妙的延伸：不存在的概念可以作为稀有概念的代理来研究模型行为。

在真实世界中，模型对低频概念更容易产生幻觉（因为训练数据少）。但稀有概念很难定义和评估——你怎么知道一个概念有多"稀有"？不存在的概念天然是"最稀有"的，因此提供了一个干净的实验环境。

研究发现，模型在不存在的概念上的表现，与其在真实稀有概念上的表现高度相关。这意味着 PhantomBench 不只是测幻觉，还能预测模型在知识边界附近的行为。

从"能不能编"到"敢不敢说不"

这项工作指向一个根本性的问题：AI 系统的可靠性不只取决于它"知道多少"，更取决于它"知道自己不知道什么"。

一个诚实的模型应该对超出知识范围的问题说"我不确定这个概念是否存在"，而不是编造看似合理的答案。目前的模型显然还做不到这一点。

PhantomBench 提供了一个简单但强大的评估框架：如果你问一个不存在的概念，任何非"我不确定"的回答都是幻觉。这种二元判断比评估开放式幻觉容易得多，也更可靠。

论文：PhantomBench: Benchmarking the Non-existential Threat of Language Models
作者：Haeji Jung, Hila Gonen (University of British Columbia)
链接：https://arxiv.org/abs/2606.11105

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力