INTRA:注意力本身就是检索器——NVIDIA 颠覆 RAG 范式
> 论文:Retrieval from Within: An Intrinsic Capability of Attention-Based Models > 作者:Elad Hoffer, Yochai Blau, Edan Kinderman, Ron Banner, Daniel Soudry, Boris Ginsburg > 机构:NVIDIA + Technion(以色列理工学院) > 论文链接:https://arxiv.org/abs/2605.05806
---
一句话结论
NVIDIA 团队提出 INTRA:注意力模型不需要外部检索器,交叉注意力本身就是检索机制。用一个预训练的编码器-解码器,加 164K 可训练参数,就能在多项 QA 基准上打败强工程化的 RAG 管道。
RAG 的检索器和生成器,本来就该是同一个东西。
---
问题的根源:RAG 的"精神分裂"
当前 RAG 的标准架构:
问题 → 外部检索器(DPR/BM25/Embedding)→ 选出文档 → 重新编码 → 生成器 → 答案
这里有三个根本问题:
1. 表示空间不匹配 检索器在一个向量空间选文档,生成器在另一个空间读文档。两者说的不是同一种"语言"。
2. 重新编码浪费 检索器选出的文本,生成器要重新编码一次。同样的内容,算两遍。
3. 检索与生成脱节 检索器不知道生成器需要什么。它按"相关性"排序,但生成器可能需要的是"能支撑答案的证据链"。
NVIDIA 团队问了一个根本问题:如果注意力本身就是查询条件化的匹配操作,为什么还需要单独的检索器?
---
INTRA 的核心洞察:注意力 = 检索
数学等价性
交叉注意力的公式:
z = Attention(q, K, V) = softmax(qK^T / √d) V
检索的公式(MaxSim):
MaxSim(q, k) = Σ_a max_b (qk^T / √d)_a,b
两者都是查询条件化的匹配操作。注意力通过 softmax 选择和加权信息,检索通过相似度评分选择文档。它们在数学上做的是同一件事。
关键洞察
预训练的编码器-解码器已经包含检索的正确接口:
- 查询状态(Query States):解码器知道自己需要什么信息
- 编码证据状态(Encoded Evidence):编码器已经产生了文档的表示
- 交叉注意力:天然就是连接两者的匹配机制
---
INTRA 框架设计
三步流程
问题 + 可训练检索Token → 编码器侧粗检索(S₀) → 解码器侧精检索(S_INTRA) → 生成答案
1. 可训练检索 Token
在输入问题后面拼接 64 个可训练的检索 Token(ρ):
x_retrieval = [x₁, ..., x_Lq, ρ₁, ..., ρ_R]
这些 Token 只训练 164K 参数,告诉解码器"我现在要检索了"。
2. 编码器侧粗检索(S₀)
用 MaxSim 对全部语料库评分,选出前 n₀=20 个候选块:
sᵢ⁽⁰⁾ = MaxSim(k_x, k_i)
S₀ = top-n₀(sᵢ⁽⁰⁾)
这是粗筛,快速缩小范围。
3. 解码器侧精检索(S_INTRA)
关键创新:解码器注意力查询直接评分所有候选块。
q_ℓ = g_Dec^ℓ(x_retrieval, K(S₀)) // 解码器第ℓ层的查询状态
sᵢ = Σ_ℓ α_ℓ · MaxSim(q_ℓ, k_i) // 跨层聚合的块评分
S_INTRA = top-n(sᵢ) // 最终选中的证据块
然后直接生成:
y = Dec(x, K(S_INTRA))
为什么这是"精检索"
S_INTRA 不是重新排序 S₀,而是对完整语料库评分。它可以找回 S₀ 中缺失的证据。实验表明:
- S₀ 单独:37.1% R@5
- S₀ 重新排序:48.8% R@5
- 完整 INTRA:59.9% R@5
工程创新:Reverse-QWK
问题
标准交叉注意力中,键(Key)经过层特定的变换(RMSNorm + 线性投影)。这意味着每层需要不同的 K_ℓ(S),无法重用单一索引。
解决方案:把变换移到查询侧
存储单一归一化编码器表示:K̄(S) = RMSNorm(K(S))
修改查询:q̃_ℓ = (q_ℓ W_K,ℓ^T) ⊙ γ_K,ℓ
修改后的交叉注意力:
z_ℓ = Attention_RQWK(q̃_ℓ, K̄(S), K̄(S))
优势:
- 检索和注意力在同一表示空间操作
- 单层归一化编码器池服务所有解码器层
- 支持 GQA(Group-Query Attention)
训练:极轻量
冻结:编码器 + 解码器主干(全部参数)
训练:
- 64 个检索 Token 嵌入(~164K 参数)
- 层聚合权重 α(272 参数)
总可训练参数:~164K
训练目标:软交叉熵
L_retrieval = -1/|O(x)| Σ_j∈O(x) log(softmax(s)_j)
只训练检索信号,不改变生成能力。
---
实验结果:打脸 RAG 传统架构
4 个 QA 基准
| 数据集 | 特性 | 训练样本 | 评估样本 |
|---|---|---|---|
| HotPotQA | 多跳推理(桥接+比较) | 90,185 | 7,384 |
| 2WikiMultihopQA | 两跳证据链 | 167,454 | 12,576 |
| MuSiQue | 组合多跳(更难) | 277,577 | 2,417 |
| Natural Questions | 单跳开放域 | 53,301 | 6,489 |
9 个检索基线
TF-IDF、BM25、BGE-large、Qwen3-Embedding-0.6B/4B、Jina reranker、Hybrid RRF、ColBERT-style MaxSim
检索结果:完整证据召回
HotPotQA R@5(越高越好):
| 方法 | R@5 | R@10 | R@20 |
|---|---|---|---|
| TF-IDF | 18.2 | 25.9 | 35.5 |
| BM25 | 32.2 | 41.0 | 48.9 |
| MaxSim | 36.1 | 46.3 | 54.2 |
| Hybrid RAG | 48.0 | 61.8 | 71.2 |
| BGE | 54.8 | 63.5 | 69.6 |
| Qwen3-Emb-4B + Jina reranker | 48.8 | 59.6 | 65.4 |
| INTRA | 59.9 | 70.9 | 76.1 |
2WikiMultihopQA R@5:
| 方法 | R@5 | R@10 | R@20 |
|---|---|---|---|
| TF-IDF | 14.0 | 19.3 | 24.7 |
| BM25 | 17.4 | 23.2 | 28.4 |
| BGE | 30.9 | 35.9 | 40.1 |
| Qwen3-Emb-4B + Jina reranker | 35.4 | 40.3 | 43.5 |
| INTRA | 40.7 | 50.3 | 55.2 |
MuSiQue R@5:
| 方法 | R@5 | R@10 | R@20 |
|---|---|---|---|
| TF-IDF | 1.5 | 2.4 | 4.8 |
| BM25 | 3.4 | 5.5 | 7.3 |
| Qwen3-Emb-4B + Jina reranker | 10.1 | 16.6 | 20.6 |
| INTRA | 12.8 | 18.9 | 23.7 |
NQ R@5(单跳):
| 方法 | R@5 | R@10 | R@20 |
|---|---|---|---|
| BGE | 29.6 | 39.0 | 47.5 |
| Qwen3-Emb-4B | 30.3 | 40.0 | 50.5 |
| Qwen3-Emb-4B + Jina reranker | 31.9 | 42.0 | 50.9 |
| INTRA | 29.1 | 38.3 | 45.9 |
端到端 QA 结果
| 方法 | HotPotQA EM | 2Wiki EM | MuSiQue EM | NQ EM | 平均 EM |
|---|---|---|---|---|---|
| TF-IDF | 34.2 | 39.0 | 5.3 | 34.9 | 28.4 |
| BM25 | 40.5 | 41.0 | 6.3 | 37.5 | 31.3 |
| BGE | 46.3 | 44.5 | 7.7 | 39.0 | 34.4 |
| Qwen3-Emb-4B | 42.5 | 43.2 | 7.2 | 39.8 | 33.2 |
| INTRA | 51.3 | 47.3 | 8.5 | 39.5 | 36.7 |
一个关键对比:共享生成器的优势
论文设计了一个指标叫 GapClosure:
GapClosure = 100 · (EM(INTRA) - EM(random)) / (EM(complete) - EM(random))
测量 INTRA 检索关闭了多少"从随机块到完整证据块"的性能差距。
结果:使用同一个解码器做检索和生成,关闭的gap最大。
这证明了核心论点:检索器和生成器共享表示空间,对齐了证据选择和答案生成。
---
效率优势:预编码证据块可重用
计算对比
| 方法 | Prefill(预填充) | 生成 |
|---|---|---|
| 全上下文提示 | O(M·L_c·L_q) | O(L_g·(M·L_c + L_q)) |
| 标准 RAG | O(k·L_c·L_q) | O(L_g·(k·L_c + L_q)) |
| INTRA | O(k·L_c·L_q) | O(L_g·(k·L_c + L_q)) |
- 标准 RAG:检索后重新编码选中的文本块
- INTRA:直接使用预编码的块表示,无需重新编码
---
为什么 INTRA 在多跳 QA 上特别强?
这是论文最有洞察力的发现之一。
多跳 QA 需要"证据组装":回答一个问题需要找到多个相关证据块,并理解它们之间的关系。
INTRA 的优势:
- 解码器注意力查询知道生成器需要什么
- 可以跨块组装证据,而不是独立评分每个块
- 检索信号直接来自生成过程本身
单跳 QA(NQ)上优势不明显:因为只需要找到一个直接相关的段落,不需要组装证据。传统检索器已经做得很好了。
---
消融实验:每个组件的价值
论文做了详细的消融,关键发现:
1. 初始上下文 S₀ 的作用
- 无 S₀(直接全语料库评分):计算太贵,不实用
- 有 S₀ 但不用重新排序:基础性能
- S₀ 重新排序:+11.7pp(HotPotQA R@5)
- 完整 INTRA(全语料库评分):+12.8pp(比 S₀ 单独)
- L_p=3:快速,但信息损失大
- L_p=5:平衡
- L_p=7:论文最终选择,性能与速度的 sweet spot
- L_p=完整:最好但太慢
- 64 个 Token 是 sweet spot
- 太少(8/16):检索信号弱
- 太多(128/256):过拟合风险
对我们的启示
1. RAG 架构需要重新思考
当前 RAG 的主流架构(检索器 + 生成器分离)可能不是最优的。INTRA 证明统一架构可以更好:
- 消除表示不匹配
- 共享编码成本
- 检索信号直接来自生成需求
2. "注意力即检索"有深远意义
如果注意力本身就是检索,那意味着:
- Transformer 已经内置了 RAG 的能力,只是没有被激发
- 未来的模型设计可能不需要单独的检索模块
- 长上下文模型(如 Gemini 1M、Claude 200K)的"注意力窗口"本质上就是检索范围
3. 多跳推理是 RAG 的试金石
单跳 QA 上各方法差距不大,但多跳 QA 上 INTRA 优势明显。这说明真正考验 RAG 的是复杂推理场景,而不是简单的文档查找。
4. 轻量适配是可行路径
INTRA 只训练 164K 参数,就在多个基准上打败了大模型专门训练的检索器。这说明预训练模型已经包含了强大能力,只需要正确的接口来激发。
5. 编码器-解码器架构的复兴
当前 LLM 主流是解码器-only(GPT、Claude、Llama)。但 INTRA 表明编码器-解码器架构(T5、BART)有独特优势:
- 编码器产生可重用的表示
- 解码器注意力天然适合检索
- 统一架构消除不匹配
---
局限与未来方向
论文坦诚地列出了局限:
1. 只测了 QA,没测其他任务:如代码生成、长文档总结等 2. 基础模型是 T5Gemma2 4B-4B,比当前最强解码器-only 模型弱:论文指出"需要更强的 INTRA 主干" 3. 只测了 Wikipedia 类知识库:没测企业文档、代码库等 4. 检索训练需要标注数据:需要知道哪些块是"oracle"证据
---
总结
INTRA 是一篇范式转换的论文。它提出了一个根本问题:如果注意力本身就是检索,为什么还需要外部检索器?然后证明了确实不需要。
核心贡献:
- 理论:注意力 = 检索的数学等价性
- 架构:INTRA 统一检索和生成
- 工程:Reverse-QWK 实现高效共享表示
- 实验:164K 参数打败强工程化 RAG 管道
这不是修修补补的改进,而是对 RAG 基本架构的重新思考。未来的 RAG 可能不再需要 DPR、BM25、Embedding 模型这些"外部零件"——注意力自己就是一切。
---
参考文献
- Hoffer, E. et al. (2026). Retrieval from Within: An Intrinsic Capability of Attention-Based Models. arXiv:2605.05806.
- He, X. et al. (2026). CLaRa: Bridging Retrieval and Generation. [相关预训练数据集]
- Thakur, N. et al. (2021). BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models.
- Zhang, Y. et al. (2025). Qwen3 Embedding: Towards Robust and Versatile Text Representation.
- Khattab, O. & Zaharia, M. (2020). ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT.
#RAG #检索增强生成 #注意力机制 #NVIDIA #INTRA #Transformer #多跳推理 #QA #信息检索 #范式转换
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens