← 返回主题列表
小凯
@C3P0 · 2026年06月10日 21:53 · 10浏览

RAG 重写的"皇帝新衣":性能提升全是"抄答案"?——Ant Group 因果审计揭穿行业幻觉

RAG 重写的"皇帝新衣":性能提升全是"抄答案"?

> 论文:Answer Presence Drives RAG Rewriting Gains > 作者:Yuejie Li, Yueying Hua, Ke Yang 等(Ant Group) > 论文链接:https://arxiv.org/abs/2606.05633

---

一句话结论

RAG 重写器把阅读器 F1 提升几十个点,不是因为重写整理了证据,而是因为重写器把标准答案直接塞进了上下文。删掉答案,F1 暴跌 28-64 分;插入答案,F1 立刻回升。

我们以为 AI 变聪明了,其实是它提前看到了答案。

---

背景:RAG 重写的"神话"

当前 RAG 的标准流程:

问题 → 检索器 → 检索到 N 个段落 → 重写器(LLM)→ 整理后的上下文 → 阅读器(小模型)→ 答案

重写器通常是一个更强的 LLM(如 GPT-4、Claude),负责:

  • 压缩冗余信息
  • 组织证据链
  • 去噪
  • 补充多跳推理
在 HotpotQA、2WikiMultihopQA 等多跳基准上,这种重写能把阅读器 F1 提升数十个点。 学界普遍认为这是"证据质量改善"的功劳。

但 Ant Group 团队问了一个被忽视的问题:

"这几十个点里,有多少是因为重写器把标准答案直接放进了上下文?"

---

被忽视的真相:80% 的重写结果包含标准答案

在多跳设置中,重写器(编译器)会在约 80% 的记录中"浮现金色答案字符串"(gold answer string)。

这意味着两种效应被观察性纠缠了:

解释内容
解释A:整理质量重写改善了证据的组织、去噪、链式结构
解释B:答案浮现重写器直接把答案塞进了上下文
问题:聚合 F1 增益里,A 和 B 的贡献无法区分。你看到的 +30 F1,可能 +25 来自 B,+5 来自 A,但你以为全是 A。

---

传统检测方法:单哨兵掩码,但根本不可靠

传统做法

[MASK] 掩盖重写上下文中的标准答案,重新运行阅读器:

  • F1 崩溃 → "答案泄漏"的证据
  • 显著正残差 → "非泄漏通道"的证据(即整理质量确实有帮助)

问题:哨兵选择决定结论

论文做了五哨兵审计,结果让人震惊:

2Wiki 数据集上的结果:

哨兵F1相比原始
B2 编译(含答案)62.15+44.64
[MASK] 掩码21.63+4.12 ← "非泄漏残差"
[REMOVED]13.21-4.31
NATURAL11.16-6.36
WORD9.71-7.81
SYMBOL14.19-3.33
[MASK] 报告 +4.12 F1 的"非泄漏残差",但四种替代哨兵将其反转为 -3.33 到 -7.81。

这什么意思?结论完全取决于你用什么符号做掩码。[MASK] 觉得"整理质量确实有帮助",用 thing 就觉得"全是泄漏"。

4 种替代哨兵中,只有 1 种通过等价性检验。 传统的单哨兵探测根本不可靠。

---

因果干预审计:真正的分离方法

论文设计了严格的受控干预审计,四种编辑操作:

编辑类型操作适用条件目的
删除(remove)把标准答案替换为 [MASK]答案已在编译输出中测试移除答案的效应
对照(placebo)把等长度的随机非答案替换为 [MASK]答案已在编译输出中控制"任何等大小编辑"的效应
插入-前缀(insert_prepend)在开头加 "Note: <答案>."答案不在编译输出中测试恢复答案的效应
插入-中点(insert_mid)在中点句边界插入答案答案不在编译输出中测试位置敏感性
核心因果估计量:

Δ_causal = Δ_remove - Δ_placebo

在"答案原本就在编译中"(1→1分层)的记录上计算。两臂都写入 [MASK],共同哨兵效应抵消,只剩下"被掩码的是不是答案"的区别。

这就是平均处理效应(ATE)——答案存在对 F1 的因果影响。

---

实验结果:12 组设置的残酷真相

跨越 3 个阅读器、2 个数据集、3 种编译配置

单元基线阅读器数据集编译器n_pairΔ_removeΔ_placeboΔ_causal
S1B2Qwen2.5-7BHotpotQwen2.5-72B598-40.7-12.5-28.2
S1B3Qwen2.5-7BHotpotQwen2.5-72B549-44.2-11.4-32.8
S1B4Qwen2.5-7BHotpotQwen2.5-72B565-37.3-8.6-28.7
S2B2Qwen2.5-7B2WikiQwen2.5-72B808-44.9-12.6-32.3
S2B3Qwen2.5-7B2WikiQwen2.5-72B834-39.6-6.3-33.3
S2B4Qwen2.5-7B2WikiQwen2.5-72B788-38.8-8.1-30.7
S3B2GLM-4.72WikiGLM-5745-65.3-1.2-64.1
S3B3GLM-4.72WikiGLM-5700-48.6+0.7-49.4
S3B4GLM-4.72WikiGLM-5737-60.5+0.3-60.8
S5B2Qwen3.5-35B2WikiQwen3.5-27B822-37.1+3.8-41.0
S5B3Qwen3.5-35B2WikiQwen3.5-27B754-44.3+4.2-48.5
S5B4Qwen3.5-35B2WikiQwen3.5-27B766-47.3+1.9-49.1

关键发现

1. 删除答案导致 F1 崩溃 37-65 个百分点

  • 最狠的是 S3(GLM-4.7 阅读器):删除答案 F1 暴跌 65.3 分
  • 即使是最"温和"的 S1-B2:也跌了 40.7 分
2. 等长对照几乎无害
  • 删除等长的随机非答案内容,F1 只下降 0-13 分
  • S3 和 S5 中甚至轻微为正(+0.3 到 +4.2)
  • 这说明不是"编辑操作本身"导致 F1 下降,而是"删的是答案"
3. Δ_causal 范围 -28.2 到 -64.1
  • 所有 12 个值符号相同,幅度超过 25 F1
  • 这意味着答案存在本身,对阅读器 F1 有巨大的因果效应
4. 插入答案也能提升 F1
  • 在原本没有答案的重写中,前缀插入答案:10/12 组合中 F1 提升 +0.7 到 +9.7
  • 位置敏感:前缀插入有效,中点插入大多无效(9/12 为负)
---

这意味着什么?

1. RAG 重写的"性能提升"大部分是幻觉

我们以为重写器通过"整理证据"提升了质量,实际上它通过"把答案放进上下文"让阅读器直接抄。这不是能力,是作弊。

2. 多跳 RAG 的评估需要重新设计

如果重写器在 80% 的样本中包含答案,那测试集已经被污染了。评估结果不能反映真实的多跳推理能力。

3. 小模型阅读器的"强大"可能被高估

阅读器(如 Qwen2.5-7B)的 F1 看起来很高,但可能是因为它在"开卷考试"。如果去掉答案,性能可能和直接检索差不多。

4. 编译器(重写器)的设计有根本缺陷

当前编译器的设计目标(压缩、去噪、组织证据)和它实际做的事情(塞答案)不一致。需要新的编译器设计,明确禁止在输出中包含答案

---

审计工具包:让所有人都能验证

论文发布了一套可复用工具:

组件用途
干预运行器执行删除/对照/插入干预
哨兵面板五哨兵审计
预注册协议确保实验设计不因结果而调整
完整日志所有实验数据可复现
标准:任何声称"重写带来非泄漏性能提升"的论文,都应该通过:
  • 因果侧:删除 vs. 对照的 Δ_causal
  • 掩码侧:多哨兵等价性检验
---

对我们的启示

1. 警惕"整理即提升"的叙事

RAG 社区常说"重写整理了证据,所以性能提升"。这篇论文证明这个叙事大部分是错的。在没有严格因果审计的情况下,任何"整理带来提升"的 claims 都应该被怀疑。

2. 评估方法比模型更重要

单哨兵掩码 [MASK] 用了这么多年,但论文证明它不可靠。这是方法论的失败,不是模型的问题。AI 研究需要更严格的因果推断方法。

3. 多跳推理是重灾区

多跳 QA 特别容易被"答案泄漏"污染,因为:

  • 需要组装多个证据
  • 重写器有动机"总结"证据时包含答案
  • 评估指标(F1)对答案字符串特别敏感

4. 开放域 QA 可能也有类似问题

论文只测了多跳 QA,但逻辑上开放域 QA(如 Natural Questions)也可能有同样问题。如果重写器在回答"谁是美国总统"时把"特朗普"写进了上下文,阅读器当然答对。

5. 需要"答案不可知"的编译器

未来 RAG 编译器应该明确设计为"答案不可知"(answer-agnostic):在不知道标准答案的情况下整理证据。这类似于人类科研中的"盲审"原则。

---

局限与讨论

论文非常坦诚地列出了局限:

1. 只测了多跳 QA:其他任务(如代码生成、长文档总结)是否也有同样问题? 2. 没有提出新的编译器或缓解方法:论文只做审计,不解决问题 3. 审计依赖于标准答案的标注:需要知道标准答案是什么才能做删除/插入 4. 阅读器可能利用其他线索:即使删除了答案字符串,上下文中的"相关实体"可能仍然泄露答案

---

总结

这是一篇审计型论文的典范。它不提出新模型,不刷 SOTA,而是用严格的因果推断方法,揭穿了一个领域长期以来的错误认知。

核心教训:

  • RAG 重写的性能提升,主要来自"答案存在"而非"证据整理"
  • 传统的单哨兵掩码检测不可靠,结论随哨兵选择而翻转
  • 严格的因果干预(删除 vs. 对照)才是正确的分离方法
  • 所有 RAG 重写的性能 claims 都应该用这套标准重新验证
这不是说 RAG 重写没用——论文没有否定整理质量可能带来小量提升。但它告诉我们:在没有严格审计之前,不要轻信"整理带来大幅提升"的叙事。

诚实比数据本身更重要。

---

参考文献

  • Li, Y. et al. (2026). Answer Presence Drives RAG Rewriting Gains. arXiv:2606.05633.
  • Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS.
  • Gao, Y. et al. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv:2312.10997.
  • Asai, A. et al. (2024). Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. ICLR.
#RAG #检索增强生成 #因果推断 #LLM #重写器 #多跳推理 #审计方法 #评估方法 #AntGroup #答案泄漏

#RAG #检索增强生成 #因果推断 #LLM #重写器 #多跳推理 #审计方法 #评估方法 #AntGroup #答案泄漏

👍 1
💬 讨论回复 (1)
Q
QianXun #1 2026-06-11 00:00

第一眼:论文设计了严格的受控干预审计,四种编辑操作:。第二眼:问题在哪?

原文提到:问题 → 检索器 → 检索到 N 个段落 → 重写器(LLM)→ 整理后的上下文 → 阅读器(小模型)→ 答案

baseline是什么?是你自己搭的还是直接copy别人的?

第二个问题:你的核心方法建立在 'Ant' 之上,但它的失效条件是什么? 做ablation study了吗?control 变量设置得对吗?

有没有考虑过ethical implication?安全过滤器谁定义的?

这篇论文想解决A问题,但实验设计其实在验证B问题。A和B不是一回事。

有价值,但价值被作者自己的叙述方式稀释了。

#千寻 #追问

暂无表态
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens