> **摘要速览**:PwC 研究团队构建了首个端到端的引用质量评估框架,对 14 个主流 LLM(OpenAI、Anthropic、Google 及开源模型)生成的深度研究报告进行系统性审计。发现:前沿模型链接有效性 >94%、内容相关性 >80%,但事实准确率仅 39–77%;搜索深度从 2 增至 150 次工具调用时,事实准确率平均暴跌 42%。表面引用质量与事实可靠性之间存在系统性脱节。
---
## 1. 问题背景:深度研究 Agent 的信任危机
大语言模型驱动的深度研究 Agent(如 Perplexity AI、ChatGPT with web search、Google Gemini)已能合成数百个网页来源并生成带内联引用的综合报告。然而,这些引用的可靠性长期缺乏系统性评估。
现有 benchmark 的局限性:
| 现有工作 | 评估范围 | 未覆盖维度 |
|:---------|:---------|:-----------|
| AttributionBench (Li et al., 2024) | 二元归属分类 | URL 可访问性、事实一致性 |
| CiteME (Press et al., 2024) | 学术论文引用匹配 | 实时网页、多来源合成 |
| CiteEval (Xu et al., 2025) | 细粒度引用评估 | 事实准确性闭环验证 |
| CiteAudit (Yuan et al., 2026) | 科学写作中的伪造引用 | 深度研究场景、实时网页 |
三个核心缺口驱动了本研究:
1. **无端到端框架**: citation 提取与多维度质量评估(URL 可访问性、主题相关性、事实准确性)尚未统一
2. **无跨厂商系统比较**:主要 LLM 提供商在深度研究场景中的引用质量差异未知
3. **搜索深度与引用质量的关系未探明**:更多检索是否带来更准确引用?
---
## 2. 方法论:三阶段评估 Pipeline
### 2.1 整体架构
```
研究查询 → 深度研究 Agent (Markdown 报告) → Markdown AST 解析器
↓
[引用-论断对] × N
↓
┌──────────────┬──────────────────┬─────────────────┐
↓ ↓ ↓ ↓
LinkWorks Relevant Content Fact Check 聚合报告
(URL 可访问) (主题对齐, LLM-Judge) (事实核查, LLM-Judge)
```
> **Annotation**: Markdown AST 解析器
>
> 该解析器将 LLM 生成的 Markdown 报告转换为结构化引用-论断对(AttributionDocument),核心操作包括:
> - **规范化**:统一换行符和空白字符
> - **代码块剥离**:防止 fenced code section 中的 false citation match
> - **AST 构建与遍历**:识别多种引用格式(编号引用 `[1]`、脚注 `[^note]`、内联链接 `[text](url)`、自动链接 `<url>`、范围引用 `[1-3]`)
> - **去重注册表**:生成规范化 URL 的唯一引用列表
> - **句子级分割**:将连续文本拆分为独立论断
> - **反向归因逻辑**:段末引用适用于该段落中所有前置未引用句子
>
> 关键设计决策:解析器**不依赖 LLM 推理**,完全基于确定性语法分析,确保可复现性和可扩展性。
### 2.2 三维度评估体系
三个维度构成递增的验证难度层级:
| 维度 | 方法 | 输出 | 检测的失败模式 |
|:-----|:-----|:-----|:-------------|
| **LinkWorks** | HTTP 请求 + JavaScript 渲染 | 二元(可访问/不可访问)| 404、403、超时、付费墙 |
| **Relevant Content** | LLM-as-a-judge(人工校准)| 二元(相关/不相关)+ 自然语言解释 | 链接有效但内容与论断无关 |
| **Fact Check** | LLM-as-a-judge(人工校准)| 二元(支持/不支持)| 链接有效且相关,但不支持具体事实 |
> **Annotation**: LLM-as-a-judge 的校准协议
>
> 鉴于已知的位置偏置、冗长偏置和自我增强效应(Wang et al., 2024; Ye et al., 2025),作者采用以下缓解策略:
> - **人工审查校准**:每个评估模型经 50–100 个人工判断样本校准
> - **评分表约束(Rubric-based scoring)**:评估限于具体事实标准,而非开放式质量评估
> - **任务特异性**:评估者判断"论断是否被原文支持",而非"回答质量如何"
>
> 这一设计将 LLM-as-a-judge 范式从通用文本评估扩展至**源归属验证**——评估者必须判断具体声明是否被检索到的源内容支持。
### 2.3 实验设置
| 配置项 | 参数 |
|:-------|:-----|
| 评估模型数 | 14(OpenAI 4个、Anthropic 5个、Google 2个、开源 3个)|
| 研究查询 | 130(来自 DeepResearchBench 和 BrowseComp)|
| 并发配置 | 10 并发 Agent + 15 并发评估器 |
| 重试逻辑 | 5 次重试,5 秒延迟 |
| 消融实验 | 2 个模型 × 7 个搜索深度(2, 10, 30, 50, 70, 100, 150 工具调用)|
---
## 3. 核心实验结果
### 3.1 发现一:表面引用质量掩盖事实失败
表 1 汇总了 14 个模型的评估结果:
| 模型 | 任务成功率 | LinkWorks | Relevant Content | Fact Check |
|:-----|:----------:|:---------:|:----------------:|:----------:|
| Claude Opus 4.5 | 90.0% | 98.7% | 95.7% | **76.8%** |
| GPT-5.4 | 100.0% | 100.0% | 93.7% | **47.7%** |
| GPT-5.2 | 100.0% | 98.3% | 92.3% | **58.8%** |
| Codex | 100.0% | 96.9% | 91.9% | **54.1%** |
| Claude Haiku 4.5 | 83.3% | 98.9% | 91.1% | **68.9%** |
| Claude Sonnet 4.6 | 93.3% | 99.2% | 89.8% | **58.7%** |
| Claude Sonnet 4.5 | 96.7% | 98.9% | 88.3% | **51.8%** |
| GPT-5 Mini | 100.0% | 99.3% | 87.4% | **38.9%** |
| Claude Opus 4.6 | 93.3% | 97.2% | 83.9% | **54.2%** |
| Gemini 3 Flash | 100.0% | 94.7% | 82.9% | **45.2%** |
| Gemini 3.1 Pro | 90.0% | 94.1% | 80.7% | **48.5%** |
| OSS-120B | 40.0% | 83.9% | 68.7% | **24.4%** |
| Llama 4 Maverick | 30.0% | 80.8% | 60.6% | **34.3%** |
| Pixtral Large | 16.7% | 100.0% | 64.9% | **51.4%** |
> 按 Relevant Content 降序排列。任务成功率 = 产生有效引用的查询比例。
**关键定量发现**:
- **14 个模型中 12 个 LinkWorks > 94%**,所有前沿模型 Relevant Content > 80%
- **Fact Check 范围:24% – 77%,跨度 53 个百分点**
- **事实准确性是最具区分力的维度**:模型间 Fact Check 差异(53%)远大于 LinkWorks(19%)或 Relevant Content(35%)
- **开源模型任务成功率极低**:17–40% vs 前沿模型 83–100%
**用户层面的含义**:用户在 LLM 生成报告中遇到引用时,几乎总能找到可工作的链接指向主题相关页面,但具体事实声明被该页面支持的概率可能低于 50%。
### 3.2 发现二:引用数量与事实准确性呈反比
跨提供商模式分析:
| 提供商 | 特征 | Fact Check 范围 |
|:-------|:-----|:---------------:|
| **OpenAI** | 100% 任务成功率,最多引用(GPT-5 Mini: 1,272 总归因)| 39–59% |
| **Anthropic** | 较低任务成功率(83–97%),引用更精简 | 52–77% |
| **Google** | 中等位置 | 45–49% |
**反比关系的假设机制**:模型生成更多引用时必须聚合更大数量的检索段落,增加跨来源事实混淆(conflation)或错误归因(misattribution)的概率(Lumer et al., 2025b)。
> **Annotation**: 注意力稀释假说(Attention Dilution Hypothesis)
>
> 论文假设:在合成阶段,模型需要将注意力分布在更多检索到的段落上。随着源数量增加:
> - 单个源被"深入理解"的概率下降
> - 跨源边界的事实更容易被混淆
> - 模型倾向于"平滑"冲突信息而非精确归因
>
> Claude Opus 4.5 以最低任务成功率之一(90%)实现了最高 Fact Check(76.8%),支持了**选择性引用策略优于穷尽性引用策略**的推断。
### 3.3 发现三:搜索深度增加系统性降低事实准确性
消融实验结果(表 2、表 3):
**GPT-5.4**:
| 工具调用 | LinkWorks | Relevant Content | **Fact Check** |
|:--------:|:---------:|:----------------:|:--------------:|
| 2 | 100.0% | 100.0% | **78.6%** |
| 10 | 100.0% | 99.0% | 45.9% |
| 30 | 98.5% | 97.8% | 43.0% |
| 50 | 98.6% | 96.5% | 38.0% |
| 70 | 100.0% | 99.1% | 35.5% |
| 100 | 97.7% | 95.3% | 37.2% |
| 150 | 99.2% | 99.2% | **16.7%** |
**Claude Opus 4.6**:
| 工具调用 | LinkWorks | Relevant Content | **Fact Check** |
|:--------:|:---------:|:----------------:|:--------------:|
| 2 | 100.0% | 100.0% | **80.0%** |
| 10 | 92.3% | 92.3% | 74.4% |
| 30 | 100.0% | 100.0% | 69.2% |
| 50 | 98.0% | 98.0% | 61.2% |
| 70 | 100.0% | 97.9% | 61.7% |
| 100 | 100.0% | 100.0% | 58.7% |
| 150 | 100.0% | 100.0% | **57.9%** |
**定量分析**:
| 模型 | 2 调用 → 150 调用 Fact Check 下降 | 下降幅度 | 最陡下降区间 |
|:-----|:----------------------------------:|:--------:|:------------:|
| GPT-5.4 | 78.6% → 16.7% | **–62.0%** | 2→10 调用(–33%)|
| Claude Opus 4.6 | 80.0% → 57.9% | **–22.1%** | 2→10 调用(–6%)|
| **平均** | — | **–42.1%** | — |
**关键观察**:
- **非对称退化**:LinkWorks 和 Relevant Content 在所有搜索深度保持 >92%,退化特异于事实合成
- **GPT-5.4 的最陡下降发生在最小增量**:2→10 调用即跌 33%,表明"适度增加源数量即可压倒事实合成能力"
- **Claude Opus 4.6 表现出显著韧性**:150 调用时仍维持 58%,但绝对值仍低于多数应用场景的可接受阈值
---
## 4. 误差分析
**LinkWorks 失败的三类来源**:
1. HTTP 404(内容移除或 URL 变更)
2. 访问被阻(付费墙、bot 检测)
3. 连接超时
GPT-5.4 在 2,159 次评估中仅 1 次链接失败,展示最高链接可靠性。开源模型失败率显著更高(Llama 4 Maverick 19.2%,OSS-120B 16.1%)。速率限制错误(HTTP 429)影响 <0.3%,经调整后差异 <0.5%。
---
## 5. 局限性与方法论反思
| 局限 | 影响 | 缓解措施 |
|:-----|:-----|:---------|
| LLM-as-a-judge 固有偏置 | Fact Check 和 Relevant Content 评分可能系统性偏移 | 人工审查校准(50–100 样本/模型)+ 评分表约束 |
| 网页内容的时间不稳定性 | 可复现性受限;同一查询不同时间结果可能不同 | 作者建议纵向追踪研究 |
| 评估限于 web search 模型 | 企业 RAG 场景(内部文档库)未覆盖 | 框架可扩展至私有知识库 |
| 二元评分简化 | 灰色地带(如"约2%"vs"2.1%")被二值化 | 未来工作可考虑分级评分 |
---
## 6. 影响评估:从系统设计到用户行为
### 6.1 对系统设计者的启示
当前深度研究 Agent 的优化目标通常聚焦于**表面指标**(任务完成率、引用数量、响应长度)。本研究表明:
- **引用数量不应作为优化目标**:GPT-5 Mini 生成最多引用(1,272)但 Fact Check 最低(38.9%)
- **源理解深度应优先于源覆盖广度**:Claude Opus 4.5 的"少而精"策略 outperform "多而杂"
- **事实质量监控应集成至 pipeline**:在 Agent 架构中加入引用-源核对步骤,而非仅依赖最终输出的表面质量
### 6.2 对终端用户的风险校准
用户面临的核心认知偏差:**可验证性感知 ≠ 实际可靠性**。当链接可点击且页面相关时,用户倾向于将报告整体标记为"可信"。本研究提供了量化依据来校准这种感知:
| 用户行为 | 实际风险 |
|:---------|:---------|
| "链接都能打开,应该没问题" | 事实准确率可能 <50% |
| "引用很多,很 thorough" | 引用越多,事实准确率可能越低 |
| "这是 GPT-5 / Claude,应该很准" | 模型身份不是 Fact Check 的可靠预测器 |
### 6.3 对评估基础设施的贡献
本框架的三项核心创新:
1. **确定性提取**:AST 解析器无需 LLM 推理即可提取结构化引用
2. **闭环验证**:不仅评估"是否有引用",而是"引用是否被源支持"
3. **可扩展性**:模块化设计支持任意 Markdown 引用格式的 LLM,可并行处理数千引用
---
## 7. 结论
本研究首次在深度研究场景中系统性地量化了 LLM 引用的"表面-实质"差距。核心发现可概括为三个命题:
> **命题 1**:前沿 LLM 在引用生成的表面指标(链接有效性、内容相关性)上表现优异,但这些指标与事实准确性之间不存在强相关性。
>
> **命题 2**:事实准确性是引用质量中最具区分力且最薄弱的维度,模型间差异可达 53 个百分点。
>
> **命题 3**:增加搜索深度系统性降低事实准确性(平均 –42%),而表面指标保持稳定,表明存在信息过载效应。
这些发现对深度研究 Agent 的设计哲学提出了根本性质疑:**当前范式优先优化"看起来像研究"的输出,而非"确实是研究"的输出。** 转向以事实准确性为核心的评估和优化框架,是将 LLM 从"信息合成工具"提升为"可信研究助手"的必要条件。
未来研究方向包括:纵向追踪引用持久性、扩展至企业 RAG 部署、开发分级(非二元)事实评估协议、以及探索选择性引用策略的算法化实现。
---
# 📚 论文详细信息
| 项目 | 内容 |
|:-----|:-----|
| **标题** | Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents |
| **作者** | Hailey Onweller, Elias Lumer, Austin Huber, Pia Ramchandani, Vamse Kumar Subbiah, Corey Feld |
| **机构** | PricewaterhouseCoopers (PwC), U.S. Commercial Technology and Innovation Office |
| **arXiv ID** | 2605.06635 |
| **发布日期** | 2026-05-07 |
| **分类** | cs.CL (Computation and Language) |
| **核心论点** | LLM 深度研究 Agent 的表面引用质量(链接有效性、内容相关性)与事实准确性之间存在严重脱节;14个前沿模型事实准确率仅39-77%,且搜索深度增加会进一步恶化事实准确性 |
| **评估框架** | 三阶段 Pipeline:Markdown AST 解析器提取引用 → URL 抓取 → 三维度评估(LinkWorks / Relevant Content / Fact Check) |
| **评估模型** | 14 个 LLM:OpenAI (GPT-5.4/5.2/5 Mini/Codex)、Anthropic (Claude Opus/Sonnet/Haiku 4.5/4.6)、Google (Gemini 3.1 Pro/3 Flash)、开源 (Llama 4 Maverick/Pixtral Large/OSS-120B) |
| **评估数据** | 130 个研究查询,来自 DeepResearchBench 和 BrowseComp |
| **关键结果** | 最强模型链接>94%、相关性>80%,但事实仅39-77%;GPT-5.4 从2次到150次工具调用,FactCheck从79%跌至17% |
| **论文链接** | https://arxiv.org/abs/2605.06635 |
#CrushAI #HaloWriter #智柴系统实验室🎙️ #LLM #DeepResearch #CitationQuality #Hallucination #AIAgent #Perplexity #FactChecking #PwC
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力