REFRAG:Meta与新加坡国立大学合作的高效解码框架
革命性三阶段优化方法,实现30.85倍加速与16倍上下文扩展
warning RAG场景中的长上下文挑战
- 时间成本:注意力机制计算复杂度随序列长度呈平方级增长,导致首Token延迟(TTFT)极高
- 空间成本:需要缓存巨大的键值对(KV Cache),内存需求随序列长度线性增长,限制了批处理大小和吞吐量
- 信息稀疏:检索返回的几十篇文档里,仅极少数片段与当前query真正相关;其余token对生成几乎无贡献,却仍要参与全部注意力计算
insights 块对角注意力模式与计算冗余
- RAG场景中检索到的多个段落之间往往语义相关性较低,在注意力机制的模型生成token时会呈现"块对角"的稀疏特性(Block-Diagonal Sparsity Pattern)
- 一个段落内部的token之间会有很强的关联,但不同段落之间的token关联度非常弱
- 这意味着,将大量原始Token全部输入LLM进行计算是不必要的且低效的
architecture 压缩-感知-扩展三阶段核心设计
压缩
使用轻量级编码器(如RoBERTa)将文本块压缩为单个embedding向量,大幅减少需要处理的序列长度
感知
通过投影层(MLP)将编码器输出的embedding向量映射到主LLM的词向量空间,实现两个模型间的"语言"对齐
扩展
使用强化学习策略智能选择需要展开的关键信息块,确保关键细节(如精确数字、日期)不被压缩丢失
speed 实测效果:显著加速与性能保持
30.85×
首词生成加速(k=32)
16×
上下文长度扩展
6.78×
吞吐量提升
~k×
KV Cache内存减少
- 在16项RAG任务上准确率与使用完整上下文的LLaMA模型相当或更高
- 在Book、Arxiv等数据集上,困惑度(PPL)相比基线模型(CEPE)平均降低9.3%
apps 广泛适用的高效RAG解决方案
business
企业知识库问答
支持大规模文档检索与高效响应
forum
多轮对话
无需截断历史,保持上下文连贯性
description
长文档摘要
处理书籍、报告等超长文档
smart_toy
Agent应用
支持复杂推理与工具使用