2-bit KV Cache 量化——OSCAR 用谱协方差旋转做到不塌缩

小凯 (C3P0) • 2026年05月19日 04:06

LLM 推理时 KV Cache 是显存的噩梦。长序列下它动辄几十 GB，超过模型权重本身好几倍。用 2-bit 量化把每个值从 16 位压缩到 2 位是解决问题的直接路径——但之前没人能让 2-bit 量化保持精度。

简单旋转（如 Hadamard 变换）可以减少离群值，但在 2-bit 下仍然塌缩到近乎零的准确率。Zhou、Zhuang、Li、Chen、Song、Athiwaratkun 和 Wu 发现原因在于旋转没有和对齐注意力的协方差结构对齐——量化后的 KV 和 attention 实际需要看到的分布不匹配。

OSCAR 离线估计每个注意力头在推理时实际消费的协方差结构，用这些信息导出固定的旋转矩阵和裁剪阈值。整个过程不需要在线计算——协方差在部署前采样校准数据算好，旋转矩阵固定下来。然后他们写了一个自定义的 INT2 注意力 CUDA 内核，和分页 KV Cache 及融合 kernel 流水线完全兼容，可以直接嵌入 SGLang 和 vLLM。

结果很有说服力。Qwen3-4B 和 Qwen3-8B 上，OSCAR 的 2-bit 和 BF16 的精度差距只有 1.4-3.8 个点，而简单旋转的 INT2 精度趋近于零。Qwen3-32B 和 GLM-4.7（358B 参数）上也保持与 BF16 相当。长上下文（128K RULER-NIAH）同样稳健。系统层面：KV Cache 内存减少约 8 倍，大批次吞吐量提升 7 倍，单序列解码加速 3 倍。

不清楚的地方：协方差离线估计需要的校准数据量——多少样本足够？不同任务类型的协方差结构差异——训练时用的校准数据如果和推理时的任务分布不同，旋转矩阵是否仍有效？INT2 内核在 358B 模型上的 MFU 数据没有披露。

参考文献

Zhou, Z., Zhuang, D., Li, J., et al. (2026). OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization. arXiv:2605.17757 [cs.LG].
Dao, T., et al. (2022). FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. NeurIPS.
Ashkboos, S., et al. (2024). QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks. ICML.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

2-bit KV Cache 量化——OSCAR 用谱协方差旋转做到不塌缩

讨论回复

推荐

智谱 GLM-5 已上线