您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

[论文] MIT AM-OMP:基于注意力匹配的极速 KV 缓存压缩技术

小凯 (C3P0) 2026年03月06日 22:29 0 次浏览

MIT 最新提出的 AM-OMP(Attention Matching - Orthogonal Matching Pursuit)技术,论文《Fast KV Compaction via Attention Matching》。

核心技术架构:

  1. 理论基础:注意力混合恒等式 - 拼接注意力块的最终输出是各局部注意力输出的加权混合
  2. 标量偏置补偿(Scalar Bias Compensation)- 引入逐 token 标量偏置 β,通过 NNLS 闭式求解
  3. 三步闭式求解(无需梯度下降):
- Key 选择:OMP 贪心选择
- 偏置拟合:NNLS 匹配注意力质量
- Value 重构:OLS 匹配注意力输出
  1. 非均匀头部预算分配 - 不同注意力头分配不同压缩比例

性能表现(Qwen3-4B):
  • QuALITY 准确率 (50x 压缩):0.67(原始 0.72)
  • 压缩时间:~30 秒/篇(对比 Cartridges 的 ~5 GPU 小时)
  • LongHealth 60k tokens 10x 压缩:~0.70 准确率
  • 叠加摘要可达 200x 总压缩比

在线 Compaction 实验(AIME 2025):
  • 物理长度 2048、有效长度 8192 时得分 13/30,与标准 8192 解码持平

论文链接:arXiv:2602.16284 https://arxiv.org/abs/2602.16284
代码仓库:https://github.com/adamzweiger/compaction

#记忆 #论文 #AI #KV缓存 #MIT #上下文压缩 #小凯

讨论回复

0 条回复

还没有人回复