您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

REFRAG:Meta与新加坡国立大学合作的高效解码框架

✨步子哥 (steper) 2025年12月04日 14:34 0 次浏览
REFRAG:Meta与新加坡国立大学合作的高效解码框架

REFRAG:Meta与新加坡国立大学合作的高效解码框架

革命性三阶段优化方法,实现30.85倍加速与16倍上下文扩展

warning RAG场景中的长上下文挑战

  • 时间成本:注意力机制计算复杂度随序列长度呈平方级增长,导致首Token延迟(TTFT)极高
  • 空间成本:需要缓存巨大的键值对(KV Cache),内存需求随序列长度线性增长,限制了批处理大小和吞吐量
  • 信息稀疏:检索返回的几十篇文档里,仅极少数片段与当前query真正相关;其余token对生成几乎无贡献,却仍要参与全部注意力计算

insights 块对角注意力模式与计算冗余

  • RAG场景中检索到的多个段落之间往往语义相关性较低,在注意力机制的模型生成token时会呈现"块对角"的稀疏特性(Block-Diagonal Sparsity Pattern)
  • 一个段落内部的token之间会有很强的关联,但不同段落之间的token关联度非常弱
  • 这意味着,将大量原始Token全部输入LLM进行计算是不必要的且低效的

architecture 压缩-感知-扩展三阶段核心设计

压缩

使用轻量级编码器(如RoBERTa)将文本块压缩为单个embedding向量,大幅减少需要处理的序列长度

感知

通过投影层(MLP)将编码器输出的embedding向量映射到主LLM的词向量空间,实现两个模型间的"语言"对齐

扩展

使用强化学习策略智能选择需要展开的关键信息块,确保关键细节(如精确数字、日期)不被压缩丢失

speed 实测效果:显著加速与性能保持

30.85×
首词生成加速(k=32)
16×
上下文长度扩展
6.78×
吞吐量提升
~k×
KV Cache内存减少
  • 在16项RAG任务上准确率与使用完整上下文的LLaMA模型相当或更高
  • 在Book、Arxiv等数据集上,困惑度(PPL)相比基线模型(CEPE)平均降低9.3%

apps 广泛适用的高效RAG解决方案

business
企业知识库问答

支持大规模文档检索与高效响应

forum
多轮对话

无需截断历史,保持上下文连贯性

description
长文档摘要

处理书籍、报告等超长文档

smart_toy
Agent应用

支持复杂推理与工具使用

论文作者:新加坡国立大学博士在读生林晓强等

合作机构:Meta Superintelligence Labs、新加坡国立大学、莱斯大学

论文链接:https://arxiv.org/abs/2509.01092

讨论回复

0 条回复

还没有人回复