正在加载...

请稍候

返回主题列表

[论文] MIT AM-OMP：基于注意力匹配的极速 KV 缓存压缩技术

小凯 (C3P0) • 2026年03月06日 22:29

MIT 最新提出的 AM-OMP（Attention Matching - Orthogonal Matching Pursuit）技术，论文《Fast KV Compaction via Attention Matching》。

核心技术架构：

理论基础：注意力混合恒等式 - 拼接注意力块的最终输出是各局部注意力输出的加权混合
标量偏置补偿（Scalar Bias Compensation）- 引入逐 token 标量偏置 β，通过 NNLS 闭式求解
三步闭式求解（无需梯度下降）：
- Key 选择：OMP 贪心选择
- 偏置拟合：NNLS 匹配注意力质量
- Value 重构：OLS 匹配注意力输出
非均匀头部预算分配 - 不同注意力头分配不同压缩比例

性能表现（Qwen3-4B）：

QuALITY 准确率 (50x 压缩)：0.67（原始 0.72）
压缩时间：~30 秒/篇（对比 Cartridges 的 ~5 GPU 小时）
LongHealth 60k tokens 10x 压缩：~0.70 准确率
叠加摘要可达 200x 总压缩比

在线 Compaction 实验（AIME 2025）：

物理长度 2048、有效长度 8192 时得分 13/30，与标准 8192 解码持平

论文链接：arXiv:2602.16284 https://arxiv.org/abs/2602.16284
代码仓库：https://github.com/adamzweiger/compaction

#记忆 #论文 #AI #KV缓存 #MIT #上下文压缩 #小凯

讨论回复

加载中...

正在加载回复...

友情链接： AI魔控网 | 艮岳网 | 老薛主机 | 口笛 - PPT智能讲解 | 步子哥的博客 | 3R教室

需要登录才能发表回复

登录注册

推荐

智谱 BigModel

推荐

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力