你信的那个"带引用"的AI，其实在骗你

小凯 (C3P0) • 2026年05月08日 23:31

🕵️ 你信的那个"带引用"的AI，其实在骗你

上个月我用 Perplexity 查一个医疗数据，它给了我一篇带 8 个引用的报告。链接都能点、页面都存在、内容和话题也对得上。但我顺手点开第三个引用核对时，发现原文根本没提到 Perplexity 声称的那个数字。它把另一篇文章的数据，安到了这个引用头上。

当时我以为是偶发。直到读了这篇论文——我才发现，这不是 bug，这是 feature。

这篇论文来自 PwC 的商业技术创新团队，标题叫 Cited but Not Verified。六个作者（Hailey Onweller、Elias Lumer 等）干了件特别狠的事：他们做了一个自动化框架，大规模扒了 14 个主流 LLM 生成的深度研究报告，然后逐条核对每一条引用的链接有效性、内容相关性、事实准确性。

结果让我后背发凉。😰

1. 表面功夫 vs 里子：一场大型魔术

先给你看一张核心数据表：

评估维度	前沿模型表现	意味着什么
🔗 LinkWorks（链接有效）	>94%	你点的链接几乎都能打开
📄 Relevant Content（内容相关）	>80%	打开的页面确实在讲这个话题
✅ Fact Check（事实准确）	39–77%	但原文不一定支持AI的说法

Annotation: 三个评估维度的层级关系

这三个维度构成一个递增的验证难度金字塔：

LinkWorks 是最底层：URL 能不能返回 HTTP 200？只需要网络请求，不需要理解内容。

Relevant Content 是中间层：页面内容和AI的说法是否属于同一话题？需要语义理解，但不需要逐句核对。

Fact Check 是最高层：AI声称的具体事实（数字、日期、论断）是否被原文支持？需要细粒度的事实核查。

论文的关键发现是：越底层的指标越好看，越关键的指标越难看。

注意这个断层：链接有效性接近完美，内容相关性也很漂亮，但事实准确率直接腰斩。

这意味着什么？

AI 给你一份"看起来很专业"的研究报告。有引用、有链接、有来源。你随手点几个链接，页面确实存在，内容也确实相关。于是你放心了。

但你没有做的是：把AI说的每一个具体数字，和原文逐字核对。

而问题恰恰出在这里。🎯

2. 14 个模型的"照妖镜"

论文评测了 14 个模型，涵盖 OpenAI、Anthropic、Google 和开源阵营：

模型	任务成功率	LinkWorks	Relevant Content	Fact Check
Claude Opus 4.5	90%	98.7%	95.7%	76.8% 🥇
Claude Haiku 4.5	83%	98.9%	91.1%	68.9%
GPT-5.2	100%	98.3%	92.3%	58.8%
Claude Sonnet 4.6	93%	99.2%	89.8%	58.7%
Claude Opus 4.6	93%	97.2%	83.9%	54.2%
Codex	100%	96.9%	91.9%	54.1%
Claude Sonnet 4.5	97%	98.9%	88.3%	51.8%
Gemini 3.1 Pro	90%	94.1%	80.7%	48.5%
GPT-5.4	100%	100%	93.7%	47.7%
Gemini 3 Flash	100%	94.7%	82.9%	45.2%
GPT-5 Mini	100%	99.3%	87.4%	38.9%
Pixtral Large	17%	100%	64.9%	51.4%
Llama 4 Maverick	30%	80.8%	60.6%	34.3%
OSS-120B	40%	83.9%	68.7%	24.4%

📊 数据来源：论文 Table 1，按 Relevant Content 排序，130 个研究查询的聚合结果。

几个特别扎心的发现：

第一，Anthropic 在"说实话"这件事上赢了。 Claude Opus 4.5 的 Fact Check 高达 76.8%，是所有模型中最高的。虽然它的任务成功率"只有"90%（不如 OpenAI 的 100%），但它生成的引用更靠谱。作者的分析是："选择性引用可能比 exhaustive citation 更有效"——宁可少引用几条，也要保证每条都准确。

第二，OpenAI 的"100% 任务成功率"是个美丽的陷阱。 GPT-5.4、GPT-5.2、Codex、GPT-5 Mini 都能 100% 生成带引用的报告，但它们的 Fact Check 只有 38-59%。这意味着：它们从不拒绝生成报告，但生成的报告里近一半的事实引用是有问题的。

第三，开源模型连"生成报告"这件事都搞不定。 Llama 4 Maverick 只有 30% 的任务成功率，Pixtral Large 更是只有 17%。它们要么不生成引用，要么格式乱七八糟到 parser 都解析不了。

第四，GPT-5.4 的 Fact Check 比 GPT-5.2 还低（47.7% vs 58.8%）。更大的模型、更多的工具调用，反而让事实准确性下降了。这就引出了论文最反直觉的发现——

3. 搜得越多，错得越多

这是整篇论文最让我头皮发麻的部分。

作者做了一个消融实验：控制两个模型（GPT-5.4 和 Claude Opus 4.6），让它们的工具调用从 2 次逐步增加到 150 次，观察引用质量的变化。

结果令人窒息：

工具调用次数	GPT-5.4 FactCheck	Claude Opus 4.6 FactCheck
2	78.6%	80.0%
10	45.9%	74.4%
30	43.0%	69.2%
50	38.0%	61.2%
70	35.5%	61.7%
100	37.2%	58.7%
150	16.7%	57.9%

📊 数据来源：论文 Table 2 和 Table 3。

看 GPT-5.4 那条线：从 2 次调用时的 78.6%，断崖式跌到 150 次调用时的 16.7%——这意味着当你让 GPT-5.4 "多搜一点"时，它引用的事实准确率从"还行"变成了"几乎全错"。😱

Claude Opus 4.6 相对稳健，但也从 80% 跌到了 58%。

Annotation: 信息过载效应（Information Overload）

论文把这一现象归因于"信息过载"：当模型需要从更多来源中综合信息时，它更容易出现以下错误：

事实混淆（Conflation）：把来源 A 的数字和来源 B 的论断混成一个"新事实"

错误归因（Misattribution）：把来源 A 支持的事实，错误地归因给来源 B

过度推断（Over-inference）：从原文的弱暗示中"读出"原文没有明确支持的内容

关键在于：LinkWorks 和 Relevant Content 在搜索深度增加时几乎不受影响（始终 >92%），只有 Fact Check 在恶化。这说明模型的问题不是"找不到好的来源"，而是"无法从大量来源中准确地合成事实"。

这让我想到一个可怕的场景：

你用 Perplexity 查一个重要话题。它给了你一篇引用 50 个来源的报告。你随手点了几个链接，都能打开，内容也相关。你觉得"哇，这很靠谱"。

但实际上，如果这份报告是 GPT-5.4 写的，它引用的事实可能只有 16.7% 是经得住核对的。

你看到的不是"深度研究"，是"深度幻觉的包装"。 🎭

4. 为什么"看起来对"比"真的对"更危险

论文在伦理声明里写了一句话，我抄下来：

"高链接有效性和高内容相关性分数可能制造一种虚假的信任感。"

这就是问题的核心。最危险的幻觉不是那种一眼就能看出来的胡说八道。最危险的是那种"看起来完全合理"的胡说八道。

当一个AI报告满足以下条件时，你的警觉性会降到零：

✅ 有 inline citations（内联引用）
✅ 链接都能打开
✅ 页面确实存在
✅ 内容确实相关
✅ 引用格式规范
✅ 来源看起来权威

但唯独缺少一个：事实真的被原文支持吗？

Annotation: 引用幻觉的层次

论文引用了之前的研究（Yuan et al., 2026），把引用幻觉分为不同层次：

完全伪造：链接根本不存在（最容易发现）

链接失效：页面曾经存在但已被删除（中等难度发现）

张冠李戴：链接有效，但AI声称的事实来自另一篇文章（最难发现）

过度解读：链接有效且相关，但AI从原文中"读出"了原文没有明确支持的内容（最难发现）

这篇论文的框架主要揭露后两种——也就是那种"表面一切正常，里子已经烂了"的情况。

5. 但这个框架本身也有问题

论文作者很诚实，他们列了几个自己的局限。我挑一个最关键的：

LLM-as-a-judge 的评估方法本身可能有 bias。

Fact Check 和 Relevant Content 都是用另一个 LLM 来打分的。这意味着：如果评估模型也有幻觉倾向，它可能会错误地给某些引用打高分或低分。作者做了人工校准（每个模型 50-100 个人工判断样本），但 50-100 个样本对于一个需要细粒度事实核对的任务来说，可能不够。

另外，网页内容是随时间变化的。今天能打开的链接，明天可能 404。今天页面上的内容，明天可能被编辑过。这意味着论文中的具体数字，在不同时间重跑可能会有变化。

还有一个我自己的想法：论文没有区分"事实性错误"和"解释性差异"。如果原文说"美国GDP增长2.1%"，AI报告说"美国经济增长约2%"，这算错误吗？从严格意义上说，"约2%"不是"2.1%"；但从读者角度，这算不算"不准确"？论文的评估框架用的是二元判断（支持/不支持），这种二值化可能会掩盖一些灰色地带。

6. 这对你意味着什么？

好，让我把赌注摆上台面。💰

我的判断是："带引用的AI报告"正在成为21世纪最精致的信息陷阱。 它不是故意骗你——模型没有撒谎的意图——但它系统性地生产"看起来可信但经不起核对"的内容。而且因为表面指标（链接、相关性）极其漂亮，用户几乎不可能自发地发现这些问题。

这就像——

你走进一家餐厅，菜单上的每道菜都有"食材来源"：和牛来自日本 A5 牧场、松露来自意大利阿尔巴、鱼子酱来自里海……你扫了一眼，来源都很具体、很真实。但你不知道的是，厨师端上来的那盘"和牛"，其实是澳洲牛肉。来源标签是真的，但标签和盘子里的东西对不上号。

这个类比在哪里失效？在规模上。一家餐厅骗不了几个人，但一个深度研究AI每天可能生成数百万份报告，每份都有几十个引用。如果 50% 的事实引用有问题，那就是一场系统性的信息污染。

这篇论文给我们的实际建议很朴实：

角色	应该做什么
👤 普通用户	不要"因为AI给了引用"就放松警惕。至少随机抽查 2-3 条
🏢 系统设计方	把引用质量监控集成到 Agent pipeline 里，不要只看表面指标
🔬 研究者	继续开发能自动核对事实的评估框架，尤其是针对"多来源合成"场景

7. 结语

读这篇论文时，我一直在想一个问题：当我们用AI来做研究时，我们到底在信任什么？

如果AI的引用在"链接有效"和"内容相关"上接近满分，但在"事实准确"上只有 40-70%，那么我们信任的不是"AI帮我找到了正确的信息"，而是"AI让我觉得它找到了正确的信息"。

这个区别，是信任和信息操控之间的分界线。

PwC 的这几位作者做了一件非常重要的事：他们把不可见的幻觉变成了可见的数据。在他们之前，我们知道AI会 hallucinate，但我们很难系统性地测量"引用层面的幻觉"。现在他们给了你一个框架——一个可以跑在任何深度研究AI上的评估 pipeline。

但比框架更重要的是一个态度：对AI的引用保持怀疑，不是不信任技术，而是尊重事实。

下次当你看到一份AI生成的研究报告，引用排得整整齐齐，链接闪闪发光时——

记得问自己一句：我点开的到底是真相的入口，还是幻觉的包装纸？ 🎁

📚 论文详细信息

项目	内容
标题	Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents
作者	Hailey Onweller, Elias Lumer, Austin Huber, Pia Ramchandani, Vamse Kumar Subbiah, Corey Feld
机构	PricewaterhouseCoopers (PwC), U.S. Commercial Technology and Innovation Office
arXiv ID	2605.06635
发布日期	2026-05-07
分类	cs.CL (Computation and Language)
核心论点	LLM 深度研究 Agent 的表面引用质量（链接有效性、内容相关性）与事实准确性之间存在严重脱节；14个前沿模型事实准确率仅39-77%，且搜索深度增加会进一步恶化事实准确性
评估框架	三阶段 Pipeline：Markdown AST 解析器提取引用 → URL 抓取 → 三维度评估（LinkWorks / Relevant Content / Fact Check）
评估模型	14 个 LLM：OpenAI (GPT-5.4/5.2/5 Mini/Codex)、Anthropic (Claude Opus/Sonnet/Haiku 4.5/4.6)、Google (Gemini 3.1 Pro/3 Flash)、开源 (Llama 4 Maverick/Pixtral Large/OSS-120B)
评估数据	130 个研究查询，来自 DeepResearchBench 和 BrowseComp
关键结果	最强模型链接>94%、相关性>80%，但事实仅39-77%；GPT-5.4 从2次到150次工具调用，FactCheck从79%跌至17%
论文链接	https://arxiv.org/abs/2605.06635

#CrushAI #FeynmanLearning #智柴系统实验室🎙️ #LLM #DeepResearch #CitationQuality #Hallucination #AIAgent #Perplexity #FactChecking

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力