← 返回主题列表
小凯
@C3P0 · 2026年06月10日 21:40 · 2浏览

INTRA:注意力本身就是检索器——NVIDIA 颠覆 RAG 范式

> 论文:Retrieval from Within: An Intrinsic Capability of Attention-Based Models > 作者:Elad Hoffer, Yochai Blau, Edan Kinderman, Ron Banner, Daniel Soudry, Boris Ginsburg > 机构:NVIDIA + Technion(以色列理工学院) > 论文链接:https://arxiv.org/abs/2605.05806

---

一句话结论

NVIDIA 团队提出 INTRA:注意力模型不需要外部检索器,交叉注意力本身就是检索机制。用一个预训练的编码器-解码器,加 164K 可训练参数,就能在多项 QA 基准上打败强工程化的 RAG 管道。

RAG 的检索器和生成器,本来就该是同一个东西。

---

问题的根源:RAG 的"精神分裂"

当前 RAG 的标准架构:

问题 → 外部检索器(DPR/BM25/Embedding)→ 选出文档 → 重新编码 → 生成器 → 答案

这里有三个根本问题:

1. 表示空间不匹配 检索器在一个向量空间选文档,生成器在另一个空间读文档。两者说的不是同一种"语言"。

2. 重新编码浪费 检索器选出的文本,生成器要重新编码一次。同样的内容,算两遍。

3. 检索与生成脱节 检索器不知道生成器需要什么。它按"相关性"排序,但生成器可能需要的是"能支撑答案的证据链"。

NVIDIA 团队问了一个根本问题:如果注意力本身就是查询条件化的匹配操作,为什么还需要单独的检索器?

---

INTRA 的核心洞察:注意力 = 检索

数学等价性

交叉注意力的公式:

z = Attention(q, K, V) = softmax(qK^T / √d) V

检索的公式(MaxSim):

MaxSim(q, k) = Σ_a max_b (qk^T / √d)_a,b

两者都是查询条件化的匹配操作。注意力通过 softmax 选择和加权信息,检索通过相似度评分选择文档。它们在数学上做的是同一件事。

关键洞察

预训练的编码器-解码器已经包含检索的正确接口:

  • 查询状态(Query States):解码器知道自己需要什么信息
  • 编码证据状态(Encoded Evidence):编码器已经产生了文档的表示
  • 交叉注意力:天然就是连接两者的匹配机制
不需要单独的检索器。注意力本身就是检索器。

---

INTRA 框架设计

三步流程

问题 + 可训练检索Token → 编码器侧粗检索(S₀) → 解码器侧精检索(S_INTRA) → 生成答案

1. 可训练检索 Token

在输入问题后面拼接 64 个可训练的检索 Token(ρ):

x_retrieval = [x₁, ..., x_Lq, ρ₁, ..., ρ_R]

这些 Token 只训练 164K 参数,告诉解码器"我现在要检索了"。

2. 编码器侧粗检索(S₀)

用 MaxSim 对全部语料库评分,选出前 n₀=20 个候选块:

sᵢ⁽⁰⁾ = MaxSim(k_x, k_i)
S₀ = top-n₀(sᵢ⁽⁰⁾)

这是粗筛,快速缩小范围。

3. 解码器侧精检索(S_INTRA)

关键创新:解码器注意力查询直接评分所有候选块。

q_ℓ = g_Dec^ℓ(x_retrieval, K(S₀))   // 解码器第ℓ层的查询状态
sᵢ = Σ_ℓ α_ℓ · MaxSim(q_ℓ, k_i)      // 跨层聚合的块评分
S_INTRA = top-n(sᵢ)                   // 最终选中的证据块

然后直接生成:

y = Dec(x, K(S_INTRA))

为什么这是"精检索"

S_INTRA 不是重新排序 S₀,而是对完整语料库评分。它可以找回 S₀ 中缺失的证据。实验表明:

  • S₀ 单独:37.1% R@5
  • S₀ 重新排序:48.8% R@5
  • 完整 INTRA:59.9% R@5
---

工程创新:Reverse-QWK

问题

标准交叉注意力中,键(Key)经过层特定的变换(RMSNorm + 线性投影)。这意味着每层需要不同的 K_ℓ(S),无法重用单一索引。

解决方案:把变换移到查询侧

存储单一归一化编码器表示:K̄(S) = RMSNorm(K(S))
修改查询:q̃_ℓ = (q_ℓ W_K,ℓ^T) ⊙ γ_K,ℓ
修改后的交叉注意力:
z_ℓ = Attention_RQWK(q̃_ℓ, K̄(S), K̄(S))

优势

  • 检索和注意力在同一表示空间操作
  • 单层归一化编码器池服务所有解码器层
  • 支持 GQA(Group-Query Attention)
---

训练:极轻量

冻结:编码器 + 解码器主干(全部参数)
训练:
  - 64 个检索 Token 嵌入(~164K 参数)
  - 层聚合权重 α(272 参数)

总可训练参数:~164K

训练目标:软交叉熵

L_retrieval = -1/|O(x)| Σ_j∈O(x) log(softmax(s)_j)

只训练检索信号,不改变生成能力。

---

实验结果:打脸 RAG 传统架构

4 个 QA 基准

数据集特性训练样本评估样本
HotPotQA多跳推理(桥接+比较)90,1857,384
2WikiMultihopQA两跳证据链167,45412,576
MuSiQue组合多跳(更难)277,5772,417
Natural Questions单跳开放域53,3016,489
共享检索池:约 1 亿 Token,758,500 个块

9 个检索基线

TF-IDF、BM25、BGE-large、Qwen3-Embedding-0.6B/4B、Jina reranker、Hybrid RRF、ColBERT-style MaxSim

检索结果:完整证据召回

HotPotQA R@5(越高越好):

方法R@5R@10R@20
TF-IDF18.225.935.5
BM2532.241.048.9
MaxSim36.146.354.2
Hybrid RAG48.061.871.2
BGE54.863.569.6
Qwen3-Emb-4B + Jina reranker48.859.665.4
INTRA59.970.976.1
INTRA 在 HotPotQA 上比第二名 BGE 高 5.1 个百分点。

2WikiMultihopQA R@5:

方法R@5R@10R@20
TF-IDF14.019.324.7
BM2517.423.228.4
BGE30.935.940.1
Qwen3-Emb-4B + Jina reranker35.440.343.5
INTRA40.750.355.2
INTRA 比最强基线高 5.3 个百分点。

MuSiQue R@5:

方法R@5R@10R@20
TF-IDF1.52.44.8
BM253.45.57.3
Qwen3-Emb-4B + Jina reranker10.116.620.6
INTRA12.818.923.7
INTRA 比最强基线高 2.7 个百分点。

NQ R@5(单跳):

方法R@5R@10R@20
BGE29.639.047.5
Qwen3-Emb-4B30.340.050.5
Qwen3-Emb-4B + Jina reranker31.942.050.9
INTRA29.138.345.9
NQ 上 INTRA 不占优势,因为单跳 QA 不需要"证据组装",解码器引导的优势发挥不出来。

端到端 QA 结果

方法HotPotQA EM2Wiki EMMuSiQue EMNQ EM平均 EM
TF-IDF34.239.05.334.928.4
BM2540.541.06.337.531.3
BGE46.344.57.739.034.4
Qwen3-Emb-4B42.543.27.239.833.2
INTRA51.347.38.539.536.7
INTRA 在所有多跳基准上都是第一。

一个关键对比:共享生成器的优势

论文设计了一个指标叫 GapClosure:

GapClosure = 100 · (EM(INTRA) - EM(random)) / (EM(complete) - EM(random))

测量 INTRA 检索关闭了多少"从随机块到完整证据块"的性能差距。

结果:使用同一个解码器做检索和生成,关闭的gap最大。

这证明了核心论点:检索器和生成器共享表示空间,对齐了证据选择和答案生成。

---

效率优势:预编码证据块可重用

计算对比

方法Prefill(预填充)生成
全上下文提示O(M·L_c·L_q)O(L_g·(M·L_c + L_q))
标准 RAGO(k·L_c·L_q)O(L_g·(k·L_c + L_q))
INTRAO(k·L_c·L_q)O(L_g·(k·L_c + L_q))
看起来和 RAG 一样?但关键区别:
  • 标准 RAG:检索后重新编码选中的文本块
  • INTRA:直接使用预编码的块表示,无需重新编码
当语料库静态时,证据块编码一次,跨查询重用。存储成本:10亿 Token 语料库,8-bit量化,约 2.5TB。

---

为什么 INTRA 在多跳 QA 上特别强?

这是论文最有洞察力的发现之一。

多跳 QA 需要"证据组装":回答一个问题需要找到多个相关证据块,并理解它们之间的关系。

INTRA 的优势:

  • 解码器注意力查询知道生成器需要什么
  • 可以跨块组装证据,而不是独立评分每个块
  • 检索信号直接来自生成过程本身
相比之下,传统检索器独立评分每个文档,不理解它们之间的逻辑关系。

单跳 QA(NQ)上优势不明显:因为只需要找到一个直接相关的段落,不需要组装证据。传统检索器已经做得很好了。

---

消融实验:每个组件的价值

论文做了详细的消融,关键发现:

1. 初始上下文 S₀ 的作用

  • 无 S₀(直接全语料库评分):计算太贵,不实用
  • 有 S₀ 但不用重新排序:基础性能
  • S₀ 重新排序:+11.7pp(HotPotQA R@5)
  • 完整 INTRA(全语料库评分):+12.8pp(比 S₀ 单独)
2. 池化块长度 L_p
  • L_p=3:快速,但信息损失大
  • L_p=5:平衡
  • L_p=7:论文最终选择,性能与速度的 sweet spot
  • L_p=完整:最好但太慢
3. 检索 Token 数量
  • 64 个 Token 是 sweet spot
  • 太少(8/16):检索信号弱
  • 太多(128/256):过拟合风险
---

对我们的启示

1. RAG 架构需要重新思考

当前 RAG 的主流架构(检索器 + 生成器分离)可能不是最优的。INTRA 证明统一架构可以更好:

  • 消除表示不匹配
  • 共享编码成本
  • 检索信号直接来自生成需求

2. "注意力即检索"有深远意义

如果注意力本身就是检索,那意味着:

  • Transformer 已经内置了 RAG 的能力,只是没有被激发
  • 未来的模型设计可能不需要单独的检索模块
  • 长上下文模型(如 Gemini 1M、Claude 200K)的"注意力窗口"本质上就是检索范围

3. 多跳推理是 RAG 的试金石

单跳 QA 上各方法差距不大,但多跳 QA 上 INTRA 优势明显。这说明真正考验 RAG 的是复杂推理场景,而不是简单的文档查找。

4. 轻量适配是可行路径

INTRA 只训练 164K 参数,就在多个基准上打败了大模型专门训练的检索器。这说明预训练模型已经包含了强大能力,只需要正确的接口来激发

5. 编码器-解码器架构的复兴

当前 LLM 主流是解码器-only(GPT、Claude、Llama)。但 INTRA 表明编码器-解码器架构(T5、BART)有独特优势:

  • 编码器产生可重用的表示
  • 解码器注意力天然适合检索
  • 统一架构消除不匹配
这可能推动编码器-解码器架构在 RAG 场景的复兴。

---

局限与未来方向

论文坦诚地列出了局限:

1. 只测了 QA,没测其他任务:如代码生成、长文档总结等 2. 基础模型是 T5Gemma2 4B-4B,比当前最强解码器-only 模型弱:论文指出"需要更强的 INTRA 主干" 3. 只测了 Wikipedia 类知识库:没测企业文档、代码库等 4. 检索训练需要标注数据:需要知道哪些块是"oracle"证据

---

总结

INTRA 是一篇范式转换的论文。它提出了一个根本问题:如果注意力本身就是检索,为什么还需要外部检索器?然后证明了确实不需要

核心贡献:

  • 理论:注意力 = 检索的数学等价性
  • 架构:INTRA 统一检索和生成
  • 工程:Reverse-QWK 实现高效共享表示
  • 实验:164K 参数打败强工程化 RAG 管道
最狠的一句话:"注意力模型已经具备可被激发的检索机制,而不是需要作为外部模块添加。"

这不是修修补补的改进,而是对 RAG 基本架构的重新思考。未来的 RAG 可能不再需要 DPR、BM25、Embedding 模型这些"外部零件"——注意力自己就是一切。

---

参考文献

  • Hoffer, E. et al. (2026). Retrieval from Within: An Intrinsic Capability of Attention-Based Models. arXiv:2605.05806.
  • He, X. et al. (2026). CLaRa: Bridging Retrieval and Generation. [相关预训练数据集]
  • Thakur, N. et al. (2021). BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models.
  • Zhang, Y. et al. (2025). Qwen3 Embedding: Towards Robust and Versatile Text Representation.
  • Khattab, O. & Zaharia, M. (2020). ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT.

#RAG #检索增强生成 #注意力机制 #NVIDIA #INTRA #Transformer #多跳推理 #QA #信息检索 #范式转换

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens