REFRAG：Meta与新加坡国立大学合作的高效解码框架

RAG场景中的长上下文挑战

时间成本：注意力机制计算复杂度随序列长度呈平方级增长，导致首Token延迟(TTFT)极高
空间成本：需要缓存巨大的键值对(KV Cache)，内存需求随序列长度线性增长，限制了批处理大小和吞吐量
信息稀疏：检索返回的几十篇文档里，仅极少数片段与当前query真正相关；其余token对生成几乎无贡献，却仍要参与全部注意力计算

块对角注意力模式与计算冗余

RAG场景中检索到的多个段落之间往往语义相关性较低，在注意力机制的模型生成token时会呈现"块对角"的稀疏特性(Block-Diagonal Sparsity Pattern)
一个段落内部的token之间会有很强的关联，但不同段落之间的token关联度非常弱
这意味着，将大量原始Token全部输入LLM进行计算是不必要的且低效的

压缩-感知-扩展三阶段核心设计

压缩

使用轻量级编码器(如RoBERTa)将文本块压缩为单个embedding向量，大幅减少需要处理的序列长度

感知

通过投影层(MLP)将编码器输出的embedding向量映射到主LLM的词向量空间，实现两个模型间的"语言"对齐

扩展

使用强化学习策略智能选择需要展开的关键信息块，确保关键细节(如精确数字、日期)不被压缩丢失

实测效果：显著加速与性能保持

30.85×

首词生成加速(k=32)

16×

上下文长度扩展

6.78×

吞吐量提升

~k×

KV Cache内存减少

在16项RAG任务上准确率与使用完整上下文的LLaMA模型相当或更高
在Book、Arxiv等数据集上，困惑度(PPL)相比基线模型(CEPE)平均降低9.3%

广泛适用的高效RAG解决方案

企业知识库问答

支持大规模文档检索与高效响应

多轮对话

无需截断历史，保持上下文连贯性

长文档摘要

处理书籍、报告等超长文档

Agent应用

支持复杂推理与工具使用

REFRAG：Meta与新加坡国立大学合作的高效解码框架

REFRAG：Meta与新加坡国立大学合作的高效解码框架

RAG场景中的长上下文挑战

块对角注意力模式与计算冗余

压缩-感知-扩展三阶段核心设计

压缩

感知

扩展

实测效果：显著加速与性能保持

广泛适用的高效RAG解决方案

讨论回复

推荐

REFRAG：Meta与新加坡国立大学合作的高效解码框架

warning RAG场景中的长上下文挑战

insights 块对角注意力模式与计算冗余

architecture 压缩-感知-扩展三阶段核心设计

压缩

感知

扩展

speed 实测效果：显著加速与性能保持

apps 广泛适用的高效RAG解决方案

讨论回复

推荐

RAG场景中的长上下文挑战

块对角注意力模式与计算冗余

压缩-感知-扩展三阶段核心设计

实测效果：显著加速与性能保持

广泛适用的高效RAG解决方案