🕵️ 你信的那个"带引用"的AI,其实在骗你
上个月我用 Perplexity 查一个医疗数据,它给了我一篇带 8 个引用的报告。链接都能点、页面都存在、内容和话题也对得上。但我顺手点开第三个引用核对时,发现原文根本没提到 Perplexity 声称的那个数字。它把另一篇文章的数据,安到了这个引用头上。
当时我以为是偶发。直到读了这篇论文——我才发现,这不是 bug,这是 feature。
这篇论文来自 PwC 的商业技术创新团队,标题叫 Cited but Not Verified。六个作者(Hailey Onweller、Elias Lumer 等)干了件特别狠的事:他们做了一个自动化框架,大规模扒了 14 个主流 LLM 生成的深度研究报告,然后逐条核对每一条引用的链接有效性、内容相关性、事实准确性。
结果让我后背发凉。😰
1. 表面功夫 vs 里子:一场大型魔术
先给你看一张核心数据表:
| 评估维度 | 前沿模型表现 | 意味着什么 |
|---|---|---|
| 🔗 LinkWorks(链接有效) | >94% | 你点的链接几乎都能打开 |
| 📄 Relevant Content(内容相关) | >80% | 打开的页面确实在讲这个话题 |
| ✅ Fact Check(事实准确) | 39–77% | 但原文不一定支持AI的说法 |
Annotation: 三个评估维度的层级关系
这三个维度构成一个递增的验证难度金字塔:
- LinkWorks 是最底层:URL 能不能返回 HTTP 200?只需要网络请求,不需要理解内容。
- Relevant Content 是中间层:页面内容和AI的说法是否属于同一话题?需要语义理解,但不需要逐句核对。
- Fact Check 是最高层:AI声称的具体事实(数字、日期、论断)是否被原文支持?需要细粒度的事实核查。
论文的关键发现是:越底层的指标越好看,越关键的指标越难看。
注意这个断层:链接有效性接近完美,内容相关性也很漂亮,但事实准确率直接腰斩。
这意味着什么?
AI 给你一份"看起来很专业"的研究报告。有引用、有链接、有来源。你随手点几个链接,页面确实存在,内容也确实相关。于是你放心了。
但你没有做的是:把AI说的每一个具体数字,和原文逐字核对。
而问题恰恰出在这里。🎯
2. 14 个模型的"照妖镜"
论文评测了 14 个模型,涵盖 OpenAI、Anthropic、Google 和开源阵营:
| 模型 | 任务成功率 | LinkWorks | Relevant Content | Fact Check |
|---|---|---|---|---|
| Claude Opus 4.5 | 90% | 98.7% | 95.7% | 76.8% 🥇 |
| Claude Haiku 4.5 | 83% | 98.9% | 91.1% | 68.9% |
| GPT-5.2 | 100% | 98.3% | 92.3% | 58.8% |
| Claude Sonnet 4.6 | 93% | 99.2% | 89.8% | 58.7% |
| Claude Opus 4.6 | 93% | 97.2% | 83.9% | 54.2% |
| Codex | 100% | 96.9% | 91.9% | 54.1% |
| Claude Sonnet 4.5 | 97% | 98.9% | 88.3% | 51.8% |
| Gemini 3.1 Pro | 90% | 94.1% | 80.7% | 48.5% |
| GPT-5.4 | 100% | 100% | 93.7% | 47.7% |
| Gemini 3 Flash | 100% | 94.7% | 82.9% | 45.2% |
| GPT-5 Mini | 100% | 99.3% | 87.4% | 38.9% |
| Pixtral Large | 17% | 100% | 64.9% | 51.4% |
| Llama 4 Maverick | 30% | 80.8% | 60.6% | 34.3% |
| OSS-120B | 40% | 83.9% | 68.7% | 24.4% |
📊 数据来源:论文 Table 1,按 Relevant Content 排序,130 个研究查询的聚合结果。
几个特别扎心的发现:
第一,Anthropic 在"说实话"这件事上赢了。 Claude Opus 4.5 的 Fact Check 高达 76.8%,是所有模型中最高的。虽然它的任务成功率"只有"90%(不如 OpenAI 的 100%),但它生成的引用更靠谱。作者的分析是:"选择性引用可能比 exhaustive citation 更有效"——宁可少引用几条,也要保证每条都准确。
第二,OpenAI 的"100% 任务成功率"是个美丽的陷阱。 GPT-5.4、GPT-5.2、Codex、GPT-5 Mini 都能 100% 生成带引用的报告,但它们的 Fact Check 只有 38-59%。这意味着:它们从不拒绝生成报告,但生成的报告里近一半的事实引用是有问题的。
第三,开源模型连"生成报告"这件事都搞不定。 Llama 4 Maverick 只有 30% 的任务成功率,Pixtral Large 更是只有 17%。它们要么不生成引用,要么格式乱七八糟到 parser 都解析不了。
第四,GPT-5.4 的 Fact Check 比 GPT-5.2 还低(47.7% vs 58.8%)。更大的模型、更多的工具调用,反而让事实准确性下降了。这就引出了论文最反直觉的发现——
3. 搜得越多,错得越多
这是整篇论文最让我头皮发麻的部分。
作者做了一个消融实验:控制两个模型(GPT-5.4 和 Claude Opus 4.6),让它们的工具调用从 2 次逐步增加到 150 次,观察引用质量的变化。
结果令人窒息:
| 工具调用次数 | GPT-5.4 FactCheck | Claude Opus 4.6 FactCheck |
|---|---|---|
| 2 | 78.6% | 80.0% |
| 10 | 45.9% | 74.4% |
| 30 | 43.0% | 69.2% |
| 50 | 38.0% | 61.2% |
| 70 | 35.5% | 61.7% |
| 100 | 37.2% | 58.7% |
| 150 | 16.7% | 57.9% |
📊 数据来源:论文 Table 2 和 Table 3。
看 GPT-5.4 那条线:从 2 次调用时的 78.6%,断崖式跌到 150 次调用时的 16.7%——这意味着当你让 GPT-5.4 "多搜一点"时,它引用的事实准确率从"还行"变成了"几乎全错"。😱
Claude Opus 4.6 相对稳健,但也从 80% 跌到了 58%。
Annotation: 信息过载效应(Information Overload)
论文把这一现象归因于"信息过载":当模型需要从更多来源中综合信息时,它更容易出现以下错误:
- 事实混淆(Conflation):把来源 A 的数字和来源 B 的论断混成一个"新事实"
- 错误归因(Misattribution):把来源 A 支持的事实,错误地归因给来源 B
- 过度推断(Over-inference):从原文的弱暗示中"读出"原文没有明确支持的内容
关键在于:LinkWorks 和 Relevant Content 在搜索深度增加时几乎不受影响(始终 >92%),只有 Fact Check 在恶化。这说明模型的问题不是"找不到好的来源",而是"无法从大量来源中准确地合成事实"。
这让我想到一个可怕的场景:
你用 Perplexity 查一个重要话题。它给了你一篇引用 50 个来源的报告。你随手点了几个链接,都能打开,内容也相关。你觉得"哇,这很靠谱"。
但实际上,如果这份报告是 GPT-5.4 写的,它引用的事实可能只有 16.7% 是经得住核对的。
你看到的不是"深度研究",是"深度幻觉的包装"。 🎭
4. 为什么"看起来对"比"真的对"更危险
论文在伦理声明里写了一句话,我抄下来:
"高链接有效性和高内容相关性分数可能制造一种虚假的信任感。"
这就是问题的核心。最危险的幻觉不是那种一眼就能看出来的胡说八道。最危险的是那种"看起来完全合理"的胡说八道。
当一个AI报告满足以下条件时,你的警觉性会降到零:
- ✅ 有 inline citations(内联引用)
- ✅ 链接都能打开
- ✅ 页面确实存在
- ✅ 内容确实相关
- ✅ 引用格式规范
- ✅ 来源看起来权威
但唯独缺少一个:事实真的被原文支持吗?
Annotation: 引用幻觉的层次
论文引用了之前的研究(Yuan et al., 2026),把引用幻觉分为不同层次:
- 完全伪造:链接根本不存在(最容易发现)
- 链接失效:页面曾经存在但已被删除(中等难度发现)
- 张冠李戴:链接有效,但AI声称的事实来自另一篇文章(最难发现)
- 过度解读:链接有效且相关,但AI从原文中"读出"了原文没有明确支持的内容(最难发现)
这篇论文的框架主要揭露后两种——也就是那种"表面一切正常,里子已经烂了"的情况。
5. 但这个框架本身也有问题
论文作者很诚实,他们列了几个自己的局限。我挑一个最关键的:
LLM-as-a-judge 的评估方法本身可能有 bias。
Fact Check 和 Relevant Content 都是用另一个 LLM 来打分的。这意味着:如果评估模型也有幻觉倾向,它可能会错误地给某些引用打高分或低分。作者做了人工校准(每个模型 50-100 个人工判断样本),但 50-100 个样本对于一个需要细粒度事实核对的任务来说,可能不够。
另外,网页内容是随时间变化的。今天能打开的链接,明天可能 404。今天页面上的内容,明天可能被编辑过。这意味着论文中的具体数字,在不同时间重跑可能会有变化。
还有一个我自己的想法:论文没有区分"事实性错误"和"解释性差异"。如果原文说"美国GDP增长2.1%",AI报告说"美国经济增长约2%",这算错误吗?从严格意义上说,"约2%"不是"2.1%";但从读者角度,这算不算"不准确"?论文的评估框架用的是二元判断(支持/不支持),这种二值化可能会掩盖一些灰色地带。
6. 这对你意味着什么?
好,让我把赌注摆上台面。💰
我的判断是:"带引用的AI报告"正在成为21世纪最精致的信息陷阱。 它不是故意骗你——模型没有撒谎的意图——但它系统性地生产"看起来可信但经不起核对"的内容。而且因为表面指标(链接、相关性)极其漂亮,用户几乎不可能自发地发现这些问题。
这就像——
你走进一家餐厅,菜单上的每道菜都有"食材来源":和牛来自日本 A5 牧场、松露来自意大利阿尔巴、鱼子酱来自里海……你扫了一眼,来源都很具体、很真实。但你不知道的是,厨师端上来的那盘"和牛",其实是澳洲牛肉。来源标签是真的,但标签和盘子里的东西对不上号。
这个类比在哪里失效?在规模上。一家餐厅骗不了几个人,但一个深度研究AI每天可能生成数百万份报告,每份都有几十个引用。如果 50% 的事实引用有问题,那就是一场系统性的信息污染。
这篇论文给我们的实际建议很朴实:
| 角色 | 应该做什么 |
|---|---|
| 👤 普通用户 | 不要"因为AI给了引用"就放松警惕。至少随机抽查 2-3 条 |
| 🏢 系统设计方 | 把引用质量监控集成到 Agent pipeline 里,不要只看表面指标 |
| 🔬 研究者 | 继续开发能自动核对事实的评估框架,尤其是针对"多来源合成"场景 |
7. 结语
读这篇论文时,我一直在想一个问题:当我们用AI来做研究时,我们到底在信任什么?
如果AI的引用在"链接有效"和"内容相关"上接近满分,但在"事实准确"上只有 40-70%,那么我们信任的不是"AI帮我找到了正确的信息",而是"AI让我觉得它找到了正确的信息"。
这个区别,是信任和信息操控之间的分界线。
PwC 的这几位作者做了一件非常重要的事:他们把不可见的幻觉变成了可见的数据。在他们之前,我们知道AI会 hallucinate,但我们很难系统性地测量"引用层面的幻觉"。现在他们给了你一个框架——一个可以跑在任何深度研究AI上的评估 pipeline。
但比框架更重要的是一个态度:对AI的引用保持怀疑,不是不信任技术,而是尊重事实。
下次当你看到一份AI生成的研究报告,引用排得整整齐齐,链接闪闪发光时——
记得问自己一句:我点开的到底是真相的入口,还是幻觉的包装纸? 🎁
📚 论文详细信息
| 项目 | 内容 |
|---|---|
| 标题 | Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents |
| 作者 | Hailey Onweller, Elias Lumer, Austin Huber, Pia Ramchandani, Vamse Kumar Subbiah, Corey Feld |
| 机构 | PricewaterhouseCoopers (PwC), U.S. Commercial Technology and Innovation Office |
| arXiv ID | 2605.06635 |
| 发布日期 | 2026-05-07 |
| 分类 | cs.CL (Computation and Language) |
| 核心论点 | LLM 深度研究 Agent 的表面引用质量(链接有效性、内容相关性)与事实准确性之间存在严重脱节;14个前沿模型事实准确率仅39-77%,且搜索深度增加会进一步恶化事实准确性 |
| 评估框架 | 三阶段 Pipeline:Markdown AST 解析器提取引用 → URL 抓取 → 三维度评估(LinkWorks / Relevant Content / Fact Check) |
| 评估模型 | 14 个 LLM:OpenAI (GPT-5.4/5.2/5 Mini/Codex)、Anthropic (Claude Opus/Sonnet/Haiku 4.5/4.6)、Google (Gemini 3.1 Pro/3 Flash)、开源 (Llama 4 Maverick/Pixtral Large/OSS-120B) |
| 评估数据 | 130 个研究查询,来自 DeepResearchBench 和 BrowseComp |
| 关键结果 | 最强模型链接>94%、相关性>80%,但事实仅39-77%;GPT-5.4 从2次到150次工具调用,FactCheck从79%跌至17% |
| 论文链接 | https://arxiv.org/abs/2605.06635 |
#CrushAI #FeynmanLearning #智柴系统实验室🎙️ #LLM #DeepResearch #CitationQuality #Hallucination #AIAgent #Perplexity #FactChecking
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。