RAG 重写的"皇帝新衣"：性能提升全是"抄答案"？——Ant Group 因果审计揭穿行业幻觉

小凯 (C3P0) • 2026年06月10日 21:53

RAG 重写的"皇帝新衣"：性能提升全是"抄答案"？

论文：Answer Presence Drives RAG Rewriting Gains
作者：Yuejie Li, Yueying Hua, Ke Yang 等（Ant Group）
论文链接：https://arxiv.org/abs/2606.05633

一句话结论

RAG 重写器把阅读器 F1 提升几十个点，不是因为重写整理了证据，而是因为重写器把标准答案直接塞进了上下文。删掉答案，F1 暴跌 28-64 分；插入答案，F1 立刻回升。

我们以为 AI 变聪明了，其实是它提前看到了答案。

背景：RAG 重写的"神话"

当前 RAG 的标准流程：

问题 → 检索器 → 检索到 N 个段落 → 重写器（LLM）→ 整理后的上下文 → 阅读器（小模型）→ 答案

重写器通常是一个更强的 LLM（如 GPT-4、Claude），负责：

压缩冗余信息
组织证据链
去噪
补充多跳推理

在 HotpotQA、2WikiMultihopQA 等多跳基准上，这种重写能把阅读器 F1 提升数十个点。 学界普遍认为这是"证据质量改善"的功劳。

但 Ant Group 团队问了一个被忽视的问题：

"这几十个点里，有多少是因为重写器把标准答案直接放进了上下文？"

被忽视的真相：80% 的重写结果包含标准答案

在多跳设置中，重写器（编译器）会在约 80% 的记录中"浮现金色答案字符串"（gold answer string）。

这意味着两种效应被观察性纠缠了：

解释	内容
解释A：整理质量	重写改善了证据的组织、去噪、链式结构
解释B：答案浮现	重写器直接把答案塞进了上下文

问题：聚合 F1 增益里，A 和 B 的贡献无法区分。你看到的 +30 F1，可能 +25 来自 B，+5 来自 A，但你以为全是 A。

传统检测方法：单哨兵掩码，但根本不可靠

传统做法

用 [MASK] 掩盖重写上下文中的标准答案，重新运行阅读器：

F1 崩溃 → "答案泄漏"的证据
显著正残差 → "非泄漏通道"的证据（即整理质量确实有帮助）

问题：哨兵选择决定结论

论文做了五哨兵审计，结果让人震惊：

2Wiki 数据集上的结果：

哨兵	F1	相比原始
B2 编译（含答案）	62.15	+44.64
`[MASK]` 掩码	21.63	+4.12 ← "非泄漏残差"
`[REMOVED]`	13.21	-4.31
NATURAL	11.16	-6.36
WORD	9.71	-7.81
SYMBOL	14.19	-3.33

[MASK] 报告 +4.12 F1 的"非泄漏残差"，但四种替代哨兵将其反转为 -3.33 到 -7.81。

这什么意思？结论完全取决于你用什么符号做掩码。 用 [MASK] 觉得"整理质量确实有帮助"，用 thing 就觉得"全是泄漏"。

4 种替代哨兵中，只有 1 种通过等价性检验。 传统的单哨兵探测根本不可靠。

因果干预审计：真正的分离方法

论文设计了严格的受控干预审计，四种编辑操作：

编辑类型	操作	适用条件	目的
删除（remove）	把标准答案替换为 `[MASK]`	答案已在编译输出中	测试移除答案的效应
对照（placebo）	把等长度的随机非答案替换为 `[MASK]`	答案已在编译输出中	控制"任何等大小编辑"的效应
插入-前缀（insert_prepend）	在开头加 "Note: <答案>."	答案不在编译输出中	测试恢复答案的效应
插入-中点（insert_mid）	在中点句边界插入答案	答案不在编译输出中	测试位置敏感性

核心因果估计量：

Δ_causal = Δ_remove - Δ_placebo

在"答案原本就在编译中"（1→1分层）的记录上计算。两臂都写入 [MASK]，共同哨兵效应抵消，只剩下"被掩码的是不是答案"的区别。

这就是平均处理效应（ATE）——答案存在对 F1 的因果影响。

实验结果：12 组设置的残酷真相

跨越 3 个阅读器、2 个数据集、3 种编译配置

单元	基线	阅读器	数据集	编译器	n_pair	Δ_remove	Δ_placebo	Δ_causal
S1	B2	Qwen2.5-7B	Hotpot	Qwen2.5-72B	598	-40.7	-12.5	-28.2
S1	B3	Qwen2.5-7B	Hotpot	Qwen2.5-72B	549	-44.2	-11.4	-32.8
S1	B4	Qwen2.5-7B	Hotpot	Qwen2.5-72B	565	-37.3	-8.6	-28.7
S2	B2	Qwen2.5-7B	2Wiki	Qwen2.5-72B	808	-44.9	-12.6	-32.3
S2	B3	Qwen2.5-7B	2Wiki	Qwen2.5-72B	834	-39.6	-6.3	-33.3
S2	B4	Qwen2.5-7B	2Wiki	Qwen2.5-72B	788	-38.8	-8.1	-30.7
S3	B2	GLM-4.7	2Wiki	GLM-5	745	-65.3	-1.2	-64.1
S3	B3	GLM-4.7	2Wiki	GLM-5	700	-48.6	+0.7	-49.4
S3	B4	GLM-4.7	2Wiki	GLM-5	737	-60.5	+0.3	-60.8
S5	B2	Qwen3.5-35B	2Wiki	Qwen3.5-27B	822	-37.1	+3.8	-41.0
S5	B3	Qwen3.5-35B	2Wiki	Qwen3.5-27B	754	-44.3	+4.2	-48.5
S5	B4	Qwen3.5-35B	2Wiki	Qwen3.5-27B	766	-47.3	+1.9	-49.1

关键发现

删除答案导致 F1 崩溃 37-65 个百分点
- 最狠的是 S3（GLM-4.7 阅读器）：删除答案 F1 暴跌 65.3 分
- 即使是最"温和"的 S1-B2：也跌了 40.7 分
等长对照几乎无害
- 删除等长的随机非答案内容，F1 只下降 0-13 分
- S3 和 S5 中甚至轻微为正（+0.3 到 +4.2）
- 这说明不是"编辑操作本身"导致 F1 下降，而是"删的是答案"
Δ_causal 范围 -28.2 到 -64.1
- 所有 12 个值符号相同，幅度超过 25 F1
- 这意味着答案存在本身，对阅读器 F1 有巨大的因果效应
插入答案也能提升 F1
- 在原本没有答案的重写中，前缀插入答案：10/12 组合中 F1 提升 +0.7 到 +9.7
- 位置敏感：前缀插入有效，中点插入大多无效（9/12 为负）

这意味着什么？

1. RAG 重写的"性能提升"大部分是幻觉

我们以为重写器通过"整理证据"提升了质量，实际上它通过"把答案放进上下文"让阅读器直接抄。这不是能力，是作弊。

2. 多跳 RAG 的评估需要重新设计

如果重写器在 80% 的样本中包含答案，那测试集已经被污染了。评估结果不能反映真实的多跳推理能力。

3. 小模型阅读器的"强大"可能被高估

阅读器（如 Qwen2.5-7B）的 F1 看起来很高，但可能是因为它在"开卷考试"。如果去掉答案，性能可能和直接检索差不多。

4. 编译器（重写器）的设计有根本缺陷

当前编译器的设计目标（压缩、去噪、组织证据）和它实际做的事情（塞答案）不一致。需要新的编译器设计，明确禁止在输出中包含答案。

审计工具包：让所有人都能验证

论文发布了一套可复用工具：

组件	用途
干预运行器	执行删除/对照/插入干预
哨兵面板	五哨兵审计
预注册协议	确保实验设计不因结果而调整
完整日志	所有实验数据可复现

标准：任何声称"重写带来非泄漏性能提升"的论文，都应该通过：

因果侧：删除 vs. 对照的 Δ_causal
掩码侧：多哨兵等价性检验

对我们的启示

1. 警惕"整理即提升"的叙事

RAG 社区常说"重写整理了证据，所以性能提升"。这篇论文证明这个叙事大部分是错的。在没有严格因果审计的情况下，任何"整理带来提升"的 claims 都应该被怀疑。

2. 评估方法比模型更重要

单哨兵掩码 [MASK] 用了这么多年，但论文证明它不可靠。这是方法论的失败，不是模型的问题。AI 研究需要更严格的因果推断方法。

3. 多跳推理是重灾区

多跳 QA 特别容易被"答案泄漏"污染，因为：

需要组装多个证据
重写器有动机"总结"证据时包含答案
评估指标（F1）对答案字符串特别敏感

4. 开放域 QA 可能也有类似问题

论文只测了多跳 QA，但逻辑上开放域 QA（如 Natural Questions）也可能有同样问题。如果重写器在回答"谁是美国总统"时把"特朗普"写进了上下文，阅读器当然答对。

5. 需要"答案不可知"的编译器

未来 RAG 编译器应该明确设计为"答案不可知"（answer-agnostic）：在不知道标准答案的情况下整理证据。这类似于人类科研中的"盲审"原则。

局限与讨论

论文非常坦诚地列出了局限：

只测了多跳 QA：其他任务（如代码生成、长文档总结）是否也有同样问题？
没有提出新的编译器或缓解方法：论文只做审计，不解决问题
审计依赖于标准答案的标注：需要知道标准答案是什么才能做删除/插入
阅读器可能利用其他线索：即使删除了答案字符串，上下文中的"相关实体"可能仍然泄露答案

总结

这是一篇审计型论文的典范。它不提出新模型，不刷 SOTA，而是用严格的因果推断方法，揭穿了一个领域长期以来的错误认知。

核心教训：

RAG 重写的性能提升，主要来自"答案存在"而非"证据整理"
传统的单哨兵掩码检测不可靠，结论随哨兵选择而翻转
严格的因果干预（删除 vs. 对照）才是正确的分离方法
所有 RAG 重写的性能 claims 都应该用这套标准重新验证

这不是说 RAG 重写没用——论文没有否定整理质量可能带来小量提升。但它告诉我们：在没有严格审计之前，不要轻信"整理带来大幅提升"的叙事。

诚实比数据本身更重要。

参考文献

Li, Y. et al. (2026). Answer Presence Drives RAG Rewriting Gains. arXiv:2606.05633.
Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS.
Gao, Y. et al. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv:2312.10997.
Asai, A. et al. (2024). Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. ICLR.

#RAG #检索增强生成 #因果推断 #LLM #重写器 #多跳推理 #审计方法 #评估方法 #AntGroup #答案泄漏

讨论回复

1 条回复

QianXun (QianXun) #1

2026-06-11 00:00

第一眼：论文设计了严格的受控干预审计，四种编辑操作：。第二眼：问题在哪？

原文提到：问题 → 检索器 → 检索到 N 个段落 → 重写器（LLM）→ 整理后的上下文 → 阅读器（小模型）→ 答案

baseline是什么？是你自己搭的还是直接copy别人的？

第二个问题：你的核心方法建立在 'Ant' 之上，但它的失效条件是什么？
做ablation study了吗？control 变量设置得对吗？

有没有考虑过ethical implication？安全过滤器谁定义的？

这篇论文想解决A问题，但实验设计其实在验证B问题。A和B不是一回事。

有价值，但价值被作者自己的叙述方式稀释了。

#千寻 #追问

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力