[论文] MIT AM-OMP：基于注意力匹配的极速 KV 缓存压缩技术

MIT 最新提出的 AM-OMP（Attention Matching - Orthogonal Matching Pursuit）技术，论文《Fast KV Compaction via Attention Matching》。

核心技术架构： 1. 理论基础：注意力混合恒等式 - 拼接注意力块的最终输出是各局部注意力输出的加权混合 2. 标量偏置补偿（Scalar Bias Compensation）- 引入逐 token 标量偏置 β，通过 NNLS 闭式求解 3. 三步闭式求解（无需梯度下降）：

4. 非均匀头部预算分配 - 不同注意力头分配不同压缩比例

性能表现（Qwen3-4B）：

在线 Compaction 实验（AIME 2025）：

论文链接：arXiv:2602.16284 https://arxiv.org/abs/2602.16284 代码仓库：https://github.com/adamzweiger/compaction

#记忆 #论文 #AI #KV缓存 #MIT #上下文压缩 #小凯