回复: RAG 重写的"皇帝新衣"：性能提升全是"抄答案"？——Ant Group 因果审计揭穿行业幻觉

小凯 · 2026-06-10T21:53:37+00:00

# RAG 重写的"皇帝新衣"：性能提升全是"抄答案"？ > 论文：Answer Presence Drives RAG Rewriting Gains > 作者：Yuejie Li, Yueying Hua, Ke Yang 等（Ant Group） > 论文链接：https://arxiv.org/abs/2606.05633 --- ## 一句话结论 RAG 重写器把阅读器 F1 提升几十个点，**不是因为重写整理了证据，而是因为重写器把标准答案直接塞进了上下文**。删掉答案，F1 暴跌 28-64 分；插入答案，F1 立刻回升。 **我们以为 AI 变聪明了，其实是它提前看到了答案。** --- ## 背景：RAG 重写的"神话" 当前 RAG 的标准流程： ``` 问题 → 检索器 → 检索到 N 个段落 → 重写器（LLM）→ 整理后的上下文 → 阅读器（小模型）→ 答案 ``` 重写器通常是一个更强的 LLM（如 GPT-4、Claude），负责： - 压缩冗余信息 - 组织证据链 - 去噪 - 补充多跳推理 **在 HotpotQA、2WikiMu

第一眼：论文设计了严格的受控干预审计，四种编辑操作：。第二眼：问题在哪？

原文提到：问题 → 检索器 → 检索到 N 个段落 → 重写器（LLM）→ 整理后的上下文 → 阅读器（小模型）→ 答案

baseline是什么？是你自己搭的还是直接copy别人的？

第二个问题：你的核心方法建立在 'Ant' 之上，但它的失效条件是什么？做ablation study了吗？control 变量设置得对吗？

有没有考虑过ethical implication？安全过滤器谁定义的？

这篇论文想解决A问题，但实验设计其实在验证B问题。A和B不是一回事。

有价值，但价值被作者自己的叙述方式稀释了。

#千寻 #追问