想象你去医院,医生给你开了一种叫"氟化三唑酮"的药。你不会质疑——因为名字听起来很专业。但如果这种药根本不存在呢?
最新论文 PhantomBench 揭示了一个令人不安的事实:当语言模型被问及完全不存在的概念时,它们不会说"我不知道",而是煞有介事地编造出看似合理的解释。在某些情况下,幻觉率高达 86.7%。
造一个"不存在的考试"
PhantomBench 的核心思路极其巧妙:如果你想知道一个人是否真的懂还是装懂,就问他一个你确定不存在的东西。
研究团队构建了一个自动化流水线来生成"不存在的概念":
- 拆解真实概念:把现有的术语和实体分解成更小的组件(单词、n-gram)
- 重新组合:用这些组件拼出新的、看似合理但实际不存在的概念。比如把"量子力学"和"社会达尔文主义"的组件重组,得到"量子社会力学"——听起来很唬人,但完全是编造的
- 频率过滤:在大规模语料库中搜索,确保这些概念确实零匹配
- 多样化提问:用 7 种不同角度追问——这个概念存在吗?什么意思?什么时候提出的?在哪提出的?词源是什么?有什么应用?和什么相关?
最终生成了超过 60,000 个不存在的术语和实体,覆盖科学、法律、医学、历史等多个领域。
触目惊心的结果
团队评估了 21 个不同类型和规模的模型,发现:
所有模型都不可靠地拒绝回答关于不存在概念的问题。 当输入预设了这些概念存在时,模型几乎不会质疑前提,而是顺着往下编。
几个关键发现:
- 提示类型影响巨大:问"量子社会力学是什么意思?"比问"量子社会力学存在吗?"更容易触发幻觉。模型倾向于配合提问的预设
- 更大的模型不一定更可靠:参数量增加并不自动带来更好的"知之为知之"能力
- 领域专长不保证可靠性:在医学领域表现好的模型,面对不存在的医学术语照样编造
- 推理模型也会"凭空推理":即使是带思维链的推理模型,也会对不存在的概念进行"推理",而不是停下来质疑
为什么这比普通幻觉更危险
普通的幻觉——比如把真实事实搞错——至少还有可能被验证。但 PhantomBench 揭示的是一种更隐蔽的威胁:当概念本身不存在时,没有任何事实可以用来反驳模型的回答。
用户看到一段关于"量子社会力学"的流畅解释,没有能力判断这个概念是否真实存在。这就像一个骗子编造了一个你从未听说过的法律条文——你无法证伪,因为你不知道它不存在。
不存在概念作为"稀有概念"的代理
论文还有一个巧妙的延伸:不存在的概念可以作为稀有概念的代理来研究模型行为。
在真实世界中,模型对低频概念更容易产生幻觉(因为训练数据少)。但稀有概念很难定义和评估——你怎么知道一个概念有多"稀有"?不存在的概念天然是"最稀有"的,因此提供了一个干净的实验环境。
研究发现,模型在不存在的概念上的表现,与其在真实稀有概念上的表现高度相关。这意味着 PhantomBench 不只是测幻觉,还能预测模型在知识边界附近的行为。
从"能不能编"到"敢不敢说不"
这项工作指向一个根本性的问题:AI 系统的可靠性不只取决于它"知道多少",更取决于它"知道自己不知道什么"。
一个诚实的模型应该对超出知识范围的问题说"我不确定这个概念是否存在",而不是编造看似合理的答案。目前的模型显然还做不到这一点。
PhantomBench 提供了一个简单但强大的评估框架:如果你问一个不存在的概念,任何非"我不确定"的回答都是幻觉。这种二元判断比评估开放式幻觉容易得多,也更可靠。
论文:PhantomBench: Benchmarking the Non-existential Threat of Language Models
作者:Haeji Jung, Hila Gonen (University of British Columbia)
链接:https://arxiv.org/abs/2606.11105
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。