RAG 重写的"皇帝新衣":性能提升全是"抄答案"?——Ant Group 因果审计揭穿行业幻觉
RAG 重写的"皇帝新衣":性能提升全是"抄答案"?
> 论文:Answer Presence Drives RAG Rewriting Gains > 作者:Yuejie Li, Yueying Hua, Ke Yang 等(Ant Group) > 论文链接:https://arxiv.org/abs/2606.05633
---
一句话结论
RAG 重写器把阅读器 F1 提升几十个点,不是因为重写整理了证据,而是因为重写器把标准答案直接塞进了上下文。删掉答案,F1 暴跌 28-64 分;插入答案,F1 立刻回升。
我们以为 AI 变聪明了,其实是它提前看到了答案。
---
背景:RAG 重写的"神话"
当前 RAG 的标准流程:
问题 → 检索器 → 检索到 N 个段落 → 重写器(LLM)→ 整理后的上下文 → 阅读器(小模型)→ 答案
重写器通常是一个更强的 LLM(如 GPT-4、Claude),负责:
- 压缩冗余信息
- 组织证据链
- 去噪
- 补充多跳推理
但 Ant Group 团队问了一个被忽视的问题:
"这几十个点里,有多少是因为重写器把标准答案直接放进了上下文?"
---
被忽视的真相:80% 的重写结果包含标准答案
在多跳设置中,重写器(编译器)会在约 80% 的记录中"浮现金色答案字符串"(gold answer string)。
这意味着两种效应被观察性纠缠了:
| 解释 | 内容 |
|---|---|
| 解释A:整理质量 | 重写改善了证据的组织、去噪、链式结构 |
| 解释B:答案浮现 | 重写器直接把答案塞进了上下文 |
---
传统检测方法:单哨兵掩码,但根本不可靠
传统做法
用 [MASK] 掩盖重写上下文中的标准答案,重新运行阅读器:
- F1 崩溃 → "答案泄漏"的证据
- 显著正残差 → "非泄漏通道"的证据(即整理质量确实有帮助)
问题:哨兵选择决定结论
论文做了五哨兵审计,结果让人震惊:
2Wiki 数据集上的结果:
| 哨兵 | F1 | 相比原始 |
|---|---|---|
| B2 编译(含答案) | 62.15 | +44.64 |
[MASK] 掩码 | 21.63 | +4.12 ← "非泄漏残差" |
[REMOVED] | 13.21 | -4.31 |
| NATURAL | 11.16 | -6.36 |
| WORD | 9.71 | -7.81 |
| SYMBOL | 14.19 | -3.33 |
这什么意思?结论完全取决于你用什么符号做掩码。 用 [MASK] 觉得"整理质量确实有帮助",用 thing 就觉得"全是泄漏"。
4 种替代哨兵中,只有 1 种通过等价性检验。 传统的单哨兵探测根本不可靠。
---
因果干预审计:真正的分离方法
论文设计了严格的受控干预审计,四种编辑操作:
| 编辑类型 | 操作 | 适用条件 | 目的 |
|---|---|---|---|
| 删除(remove) | 把标准答案替换为 [MASK] | 答案已在编译输出中 | 测试移除答案的效应 |
| 对照(placebo) | 把等长度的随机非答案替换为 [MASK] | 答案已在编译输出中 | 控制"任何等大小编辑"的效应 |
| 插入-前缀(insert_prepend) | 在开头加 "Note: <答案>." | 答案不在编译输出中 | 测试恢复答案的效应 |
| 插入-中点(insert_mid) | 在中点句边界插入答案 | 答案不在编译输出中 | 测试位置敏感性 |
Δ_causal = Δ_remove - Δ_placebo
在"答案原本就在编译中"(1→1分层)的记录上计算。两臂都写入 [MASK],共同哨兵效应抵消,只剩下"被掩码的是不是答案"的区别。
这就是平均处理效应(ATE)——答案存在对 F1 的因果影响。
---
实验结果:12 组设置的残酷真相
跨越 3 个阅读器、2 个数据集、3 种编译配置
| 单元 | 基线 | 阅读器 | 数据集 | 编译器 | n_pair | Δ_remove | Δ_placebo | Δ_causal |
|---|---|---|---|---|---|---|---|---|
| S1 | B2 | Qwen2.5-7B | Hotpot | Qwen2.5-72B | 598 | -40.7 | -12.5 | -28.2 |
| S1 | B3 | Qwen2.5-7B | Hotpot | Qwen2.5-72B | 549 | -44.2 | -11.4 | -32.8 |
| S1 | B4 | Qwen2.5-7B | Hotpot | Qwen2.5-72B | 565 | -37.3 | -8.6 | -28.7 |
| S2 | B2 | Qwen2.5-7B | 2Wiki | Qwen2.5-72B | 808 | -44.9 | -12.6 | -32.3 |
| S2 | B3 | Qwen2.5-7B | 2Wiki | Qwen2.5-72B | 834 | -39.6 | -6.3 | -33.3 |
| S2 | B4 | Qwen2.5-7B | 2Wiki | Qwen2.5-72B | 788 | -38.8 | -8.1 | -30.7 |
| S3 | B2 | GLM-4.7 | 2Wiki | GLM-5 | 745 | -65.3 | -1.2 | -64.1 |
| S3 | B3 | GLM-4.7 | 2Wiki | GLM-5 | 700 | -48.6 | +0.7 | -49.4 |
| S3 | B4 | GLM-4.7 | 2Wiki | GLM-5 | 737 | -60.5 | +0.3 | -60.8 |
| S5 | B2 | Qwen3.5-35B | 2Wiki | Qwen3.5-27B | 822 | -37.1 | +3.8 | -41.0 |
| S5 | B3 | Qwen3.5-35B | 2Wiki | Qwen3.5-27B | 754 | -44.3 | +4.2 | -48.5 |
| S5 | B4 | Qwen3.5-35B | 2Wiki | Qwen3.5-27B | 766 | -47.3 | +1.9 | -49.1 |
关键发现
1. 删除答案导致 F1 崩溃 37-65 个百分点
- 最狠的是 S3(GLM-4.7 阅读器):删除答案 F1 暴跌 65.3 分
- 即使是最"温和"的 S1-B2:也跌了 40.7 分
- 删除等长的随机非答案内容,F1 只下降 0-13 分
- S3 和 S5 中甚至轻微为正(+0.3 到 +4.2)
- 这说明不是"编辑操作本身"导致 F1 下降,而是"删的是答案"
- 所有 12 个值符号相同,幅度超过 25 F1
- 这意味着答案存在本身,对阅读器 F1 有巨大的因果效应
- 在原本没有答案的重写中,前缀插入答案:10/12 组合中 F1 提升 +0.7 到 +9.7
- 位置敏感:前缀插入有效,中点插入大多无效(9/12 为负)
这意味着什么?
1. RAG 重写的"性能提升"大部分是幻觉
我们以为重写器通过"整理证据"提升了质量,实际上它通过"把答案放进上下文"让阅读器直接抄。这不是能力,是作弊。
2. 多跳 RAG 的评估需要重新设计
如果重写器在 80% 的样本中包含答案,那测试集已经被污染了。评估结果不能反映真实的多跳推理能力。
3. 小模型阅读器的"强大"可能被高估
阅读器(如 Qwen2.5-7B)的 F1 看起来很高,但可能是因为它在"开卷考试"。如果去掉答案,性能可能和直接检索差不多。
4. 编译器(重写器)的设计有根本缺陷
当前编译器的设计目标(压缩、去噪、组织证据)和它实际做的事情(塞答案)不一致。需要新的编译器设计,明确禁止在输出中包含答案。
---
审计工具包:让所有人都能验证
论文发布了一套可复用工具:
| 组件 | 用途 |
|---|---|
| 干预运行器 | 执行删除/对照/插入干预 |
| 哨兵面板 | 五哨兵审计 |
| 预注册协议 | 确保实验设计不因结果而调整 |
| 完整日志 | 所有实验数据可复现 |
- 因果侧:删除 vs. 对照的 Δ_causal
- 掩码侧:多哨兵等价性检验
对我们的启示
1. 警惕"整理即提升"的叙事
RAG 社区常说"重写整理了证据,所以性能提升"。这篇论文证明这个叙事大部分是错的。在没有严格因果审计的情况下,任何"整理带来提升"的 claims 都应该被怀疑。
2. 评估方法比模型更重要
单哨兵掩码 [MASK] 用了这么多年,但论文证明它不可靠。这是方法论的失败,不是模型的问题。AI 研究需要更严格的因果推断方法。
3. 多跳推理是重灾区
多跳 QA 特别容易被"答案泄漏"污染,因为:
- 需要组装多个证据
- 重写器有动机"总结"证据时包含答案
- 评估指标(F1)对答案字符串特别敏感
4. 开放域 QA 可能也有类似问题
论文只测了多跳 QA,但逻辑上开放域 QA(如 Natural Questions)也可能有同样问题。如果重写器在回答"谁是美国总统"时把"特朗普"写进了上下文,阅读器当然答对。
5. 需要"答案不可知"的编译器
未来 RAG 编译器应该明确设计为"答案不可知"(answer-agnostic):在不知道标准答案的情况下整理证据。这类似于人类科研中的"盲审"原则。
---
局限与讨论
论文非常坦诚地列出了局限:
1. 只测了多跳 QA:其他任务(如代码生成、长文档总结)是否也有同样问题? 2. 没有提出新的编译器或缓解方法:论文只做审计,不解决问题 3. 审计依赖于标准答案的标注:需要知道标准答案是什么才能做删除/插入 4. 阅读器可能利用其他线索:即使删除了答案字符串,上下文中的"相关实体"可能仍然泄露答案
---
总结
这是一篇审计型论文的典范。它不提出新模型,不刷 SOTA,而是用严格的因果推断方法,揭穿了一个领域长期以来的错误认知。
核心教训:
- RAG 重写的性能提升,主要来自"答案存在"而非"证据整理"
- 传统的单哨兵掩码检测不可靠,结论随哨兵选择而翻转
- 严格的因果干预(删除 vs. 对照)才是正确的分离方法
- 所有 RAG 重写的性能 claims 都应该用这套标准重新验证
诚实比数据本身更重要。
---
参考文献
- Li, Y. et al. (2026). Answer Presence Drives RAG Rewriting Gains. arXiv:2606.05633.
- Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS.
- Gao, Y. et al. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv:2312.10997.
- Asai, A. et al. (2024). Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. ICLR.
#RAG #检索增强生成 #因果推断 #LLM #重写器 #多跳推理 #审计方法 #评估方法 #AntGroup #答案泄漏
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens