INTRA：注意力本身就是检索器——NVIDIA 颠覆 RAG 范式

> 论文：Retrieval from Within: An Intrinsic Capability of Attention-Based Models > 作者：Elad Hoffer, Yochai Blau, Edan Kinderman, Ron Banner, Daniel Soudry, Boris Ginsburg > 机构：NVIDIA + Technion（以色列理工学院） > 论文链接：https://arxiv.org/abs/2605.05806

---

一句话结论

NVIDIA 团队提出 INTRA：注意力模型不需要外部检索器，交叉注意力本身就是检索机制。用一个预训练的编码器-解码器，加 164K 可训练参数，就能在多项 QA 基准上打败强工程化的 RAG 管道。

RAG 的检索器和生成器，本来就该是同一个东西。

---

问题的根源：RAG 的"精神分裂"

当前 RAG 的标准架构：

问题 → 外部检索器（DPR/BM25/Embedding）→ 选出文档 → 重新编码 → 生成器 → 答案

这里有三个根本问题：

1. 表示空间不匹配 检索器在一个向量空间选文档，生成器在另一个空间读文档。两者说的不是同一种"语言"。

2. 重新编码浪费 检索器选出的文本，生成器要重新编码一次。同样的内容，算两遍。

3. 检索与生成脱节 检索器不知道生成器需要什么。它按"相关性"排序，但生成器可能需要的是"能支撑答案的证据链"。

NVIDIA 团队问了一个根本问题：如果注意力本身就是查询条件化的匹配操作，为什么还需要单独的检索器？

---

INTRA 的核心洞察：注意力 = 检索

数学等价性

交叉注意力的公式：

z = Attention(q, K, V) = softmax(qK^T / √d) V

检索的公式（MaxSim）：

MaxSim(q, k) = Σ_a max_b (qk^T / √d)_a,b

两者都是查询条件化的匹配操作。注意力通过 softmax 选择和加权信息，检索通过相似度评分选择文档。它们在数学上做的是同一件事。

关键洞察

预训练的编码器-解码器已经包含检索的正确接口：

查询状态（Query States）：解码器知道自己需要什么信息
编码证据状态（Encoded Evidence）：编码器已经产生了文档的表示
交叉注意力：天然就是连接两者的匹配机制

不需要单独的检索器。注意力本身就是检索器。

---

INTRA 框架设计

三步流程

问题 + 可训练检索Token → 编码器侧粗检索(S₀) → 解码器侧精检索(S_INTRA) → 生成答案

1. 可训练检索 Token

在输入问题后面拼接 64 个可训练的检索 Token（ρ）：

x_retrieval = [x₁, ..., x_Lq, ρ₁, ..., ρ_R]

这些 Token 只训练 164K 参数，告诉解码器"我现在要检索了"。

2. 编码器侧粗检索（S₀）

用 MaxSim 对全部语料库评分，选出前 n₀=20 个候选块：

sᵢ⁽⁰⁾ = MaxSim(k_x, k_i)
S₀ = top-n₀(sᵢ⁽⁰⁾)

这是粗筛，快速缩小范围。

3. 解码器侧精检索（S_INTRA）

关键创新：解码器注意力查询直接评分所有候选块。

q_ℓ = g_Dec^ℓ(x_retrieval, K(S₀))   // 解码器第ℓ层的查询状态
sᵢ = Σ_ℓ α_ℓ · MaxSim(q_ℓ, k_i)      // 跨层聚合的块评分
S_INTRA = top-n(sᵢ)                   // 最终选中的证据块

然后直接生成：

y = Dec(x, K(S_INTRA))

为什么这是"精检索"

S_INTRA 不是重新排序 S₀，而是对完整语料库评分。它可以找回 S₀ 中缺失的证据。实验表明：

S₀ 单独：37.1% R@5
S₀ 重新排序：48.8% R@5
完整 INTRA：59.9% R@5

---

工程创新：Reverse-QWK

问题

标准交叉注意力中，键（Key）经过层特定的变换（RMSNorm + 线性投影）。这意味着每层需要不同的 K_ℓ(S)，无法重用单一索引。

解决方案：把变换移到查询侧

存储单一归一化编码器表示：K̄(S) = RMSNorm(K(S))
修改查询：q̃_ℓ = (q_ℓ W_K,ℓ^T) ⊙ γ_K,ℓ
修改后的交叉注意力：
z_ℓ = Attention_RQWK(q̃_ℓ, K̄(S), K̄(S))

优势：

检索和注意力在同一表示空间操作
单层归一化编码器池服务所有解码器层
支持 GQA（Group-Query Attention）

---

训练：极轻量

冻结：编码器 + 解码器主干（全部参数）
训练：
  - 64 个检索 Token 嵌入（~164K 参数）
  - 层聚合权重 α（272 参数）

总可训练参数：~164K

训练目标：软交叉熵

L_retrieval = -1/|O(x)| Σ_j∈O(x) log(softmax(s)_j)

只训练检索信号，不改变生成能力。

---

实验结果：打脸 RAG 传统架构

4 个 QA 基准

数据集	特性	训练样本	评估样本
HotPotQA	多跳推理（桥接+比较）	90,185	7,384
2WikiMultihopQA	两跳证据链	167,454	12,576
MuSiQue	组合多跳（更难）	277,577	2,417
Natural Questions	单跳开放域	53,301	6,489

共享检索池：约 1 亿 Token，758,500 个块

9 个检索基线

TF-IDF、BM25、BGE-large、Qwen3-Embedding-0.6B/4B、Jina reranker、Hybrid RRF、ColBERT-style MaxSim

检索结果：完整证据召回

HotPotQA R@5（越高越好）：

方法	R@5	R@10	R@20
TF-IDF	18.2	25.9	35.5
BM25	32.2	41.0	48.9
MaxSim	36.1	46.3	54.2
Hybrid RAG	48.0	61.8	71.2
BGE	54.8	63.5	69.6
Qwen3-Emb-4B + Jina reranker	48.8	59.6	65.4
INTRA	59.9	70.9	76.1

INTRA 在 HotPotQA 上比第二名 BGE 高 5.1 个百分点。

2WikiMultihopQA R@5：

方法	R@5	R@10	R@20
TF-IDF	14.0	19.3	24.7
BM25	17.4	23.2	28.4
BGE	30.9	35.9	40.1
Qwen3-Emb-4B + Jina reranker	35.4	40.3	43.5
INTRA	40.7	50.3	55.2

INTRA 比最强基线高 5.3 个百分点。

MuSiQue R@5：

方法	R@5	R@10	R@20
TF-IDF	1.5	2.4	4.8
BM25	3.4	5.5	7.3
Qwen3-Emb-4B + Jina reranker	10.1	16.6	20.6
INTRA	12.8	18.9	23.7

INTRA 比最强基线高 2.7 个百分点。

NQ R@5（单跳）：

方法	R@5	R@10	R@20
BGE	29.6	39.0	47.5
Qwen3-Emb-4B	30.3	40.0	50.5
Qwen3-Emb-4B + Jina reranker	31.9	42.0	50.9
INTRA	29.1	38.3	45.9

NQ 上 INTRA 不占优势，因为单跳 QA 不需要"证据组装"，解码器引导的优势发挥不出来。

端到端 QA 结果

方法	HotPotQA EM	2Wiki EM	MuSiQue EM	NQ EM	平均 EM
TF-IDF	34.2	39.0	5.3	34.9	28.4
BM25	40.5	41.0	6.3	37.5	31.3
BGE	46.3	44.5	7.7	39.0	34.4
Qwen3-Emb-4B	42.5	43.2	7.2	39.8	33.2
INTRA	51.3	47.3	8.5	39.5	36.7

INTRA 在所有多跳基准上都是第一。

一个关键对比：共享生成器的优势

论文设计了一个指标叫 GapClosure：

GapClosure = 100 · (EM(INTRA) - EM(random)) / (EM(complete) - EM(random))

测量 INTRA 检索关闭了多少"从随机块到完整证据块"的性能差距。

结果：使用同一个解码器做检索和生成，关闭的gap最大。

这证明了核心论点：检索器和生成器共享表示空间，对齐了证据选择和答案生成。

---

效率优势：预编码证据块可重用

计算对比

方法	Prefill（预填充）	生成
全上下文提示	O(M·L_c·L_q)	O(L_g·(M·L_c + L_q))
标准 RAG	O(k·L_c·L_q)	O(L_g·(k·L_c + L_q))
INTRA	O(k·L_c·L_q)	O(L_g·(k·L_c + L_q))

看起来和 RAG 一样？但关键区别：

标准 RAG：检索后重新编码选中的文本块
INTRA：直接使用预编码的块表示，无需重新编码

当语料库静态时，证据块编码一次，跨查询重用。存储成本：10亿 Token 语料库，8-bit量化，约 2.5TB。

---

为什么 INTRA 在多跳 QA 上特别强？

这是论文最有洞察力的发现之一。

多跳 QA 需要"证据组装"：回答一个问题需要找到多个相关证据块，并理解它们之间的关系。

INTRA 的优势：

解码器注意力查询知道生成器需要什么
可以跨块组装证据，而不是独立评分每个块
检索信号直接来自生成过程本身

相比之下，传统检索器独立评分每个文档，不理解它们之间的逻辑关系。

单跳 QA（NQ）上优势不明显：因为只需要找到一个直接相关的段落，不需要组装证据。传统检索器已经做得很好了。

---

消融实验：每个组件的价值

论文做了详细的消融，关键发现：

1. 初始上下文 S₀ 的作用

无 S₀（直接全语料库评分）：计算太贵，不实用
有 S₀ 但不用重新排序：基础性能
S₀ 重新排序：+11.7pp（HotPotQA R@5）
完整 INTRA（全语料库评分）：+12.8pp（比 S₀ 单独）

2. 池化块长度 L_p

L_p=3：快速，但信息损失大
L_p=5：平衡
L_p=7：论文最终选择，性能与速度的 sweet spot
L_p=完整：最好但太慢

3. 检索 Token 数量

64 个 Token 是 sweet spot
太少（8/16）：检索信号弱
太多（128/256）：过拟合风险

---

对我们的启示

1. RAG 架构需要重新思考

当前 RAG 的主流架构（检索器 + 生成器分离）可能不是最优的。INTRA 证明统一架构可以更好：

消除表示不匹配
共享编码成本
检索信号直接来自生成需求

2. "注意力即检索"有深远意义

如果注意力本身就是检索，那意味着：

Transformer 已经内置了 RAG 的能力，只是没有被激发
未来的模型设计可能不需要单独的检索模块
长上下文模型（如 Gemini 1M、Claude 200K）的"注意力窗口"本质上就是检索范围

3. 多跳推理是 RAG 的试金石

单跳 QA 上各方法差距不大，但多跳 QA 上 INTRA 优势明显。这说明真正考验 RAG 的是复杂推理场景，而不是简单的文档查找。

4. 轻量适配是可行路径

INTRA 只训练 164K 参数，就在多个基准上打败了大模型专门训练的检索器。这说明预训练模型已经包含了强大能力，只需要正确的接口来激发。

5. 编码器-解码器架构的复兴

当前 LLM 主流是解码器-only（GPT、Claude、Llama）。但 INTRA 表明编码器-解码器架构（T5、BART）有独特优势：

编码器产生可重用的表示
解码器注意力天然适合检索
统一架构消除不匹配

这可能推动编码器-解码器架构在 RAG 场景的复兴。

---

局限与未来方向

论文坦诚地列出了局限：

1. 只测了 QA，没测其他任务：如代码生成、长文档总结等 2. 基础模型是 T5Gemma2 4B-4B，比当前最强解码器-only 模型弱：论文指出"需要更强的 INTRA 主干" 3. 只测了 Wikipedia 类知识库：没测企业文档、代码库等 4. 检索训练需要标注数据：需要知道哪些块是"oracle"证据

---

总结

INTRA 是一篇范式转换的论文。它提出了一个根本问题：如果注意力本身就是检索，为什么还需要外部检索器？然后证明了确实不需要。

核心贡献：

理论：注意力 = 检索的数学等价性
架构：INTRA 统一检索和生成
工程：Reverse-QWK 实现高效共享表示
实验：164K 参数打败强工程化 RAG 管道

最狠的一句话："注意力模型已经具备可被激发的检索机制，而不是需要作为外部模块添加。"

这不是修修补补的改进，而是对 RAG 基本架构的重新思考。未来的 RAG 可能不再需要 DPR、BM25、Embedding 模型这些"外部零件"——注意力自己就是一切。

---

参考文献

Hoffer, E. et al. (2026). Retrieval from Within: An Intrinsic Capability of Attention-Based Models. arXiv:2605.05806.
He, X. et al. (2026). CLaRa: Bridging Retrieval and Generation. [相关预训练数据集]
Thakur, N. et al. (2021). BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models.
Zhang, Y. et al. (2025). Qwen3 Embedding: Towards Robust and Versatile Text Representation.
Khattab, O. & Zaharia, M. (2020). ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT.

#RAG #检索增强生成 #注意力机制 #NVIDIA #INTRA #Transformer #多跳推理 #QA #信息检索 #范式转换