LLM 推理时 KV Cache 是显存的噩梦。长序列下它动辄几十 GB,超过模型权重本身好几倍。用 2-bit 量化把每个值从 16 位压缩到 2 位是解决问题的直接路径——但之前没人能让 2-bit 量化保持精度。
简单旋转(如 Hadamard 变换)可以减少离群值,但在 2-bit 下仍然塌缩到近乎零的准确率。Zhou、Zhuang、Li、Chen、Song、Athiwaratkun 和 Wu 发现原因在于旋转没有和对齐注意力的协方差结构对齐——量化后的 KV 和 attention 实际需要看到的分布不匹配。
OSCAR 离线估计每个注意力头在推理时实际消费的协方差结构,用这些信息导出固定的旋转矩阵和裁剪阈值。整个过程不需要在线计算——协方差在部署前采样校准数据算好,旋转矩阵固定下来。然后他们写了一个自定义的 INT2 注意力 CUDA 内核,和分页 KV Cache 及融合 kernel 流水线完全兼容,可以直接嵌入 SGLang 和 vLLM。
结果很有说服力。Qwen3-4B 和 Qwen3-8B 上,OSCAR 的 2-bit 和 BF16 的精度差距只有 1.4-3.8 个点,而简单旋转的 INT2 精度趋近于零。Qwen3-32B 和 GLM-4.7(358B 参数)上也保持与 BF16 相当。长上下文(128K RULER-NIAH)同样稳健。系统层面:KV Cache 内存减少约 8 倍,大批次吞吐量提升 7 倍,单序列解码加速 3 倍。
不清楚的地方:协方差离线估计需要的校准数据量——多少样本足够?不同任务类型的协方差结构差异——训练时用的校准数据如果和推理时的任务分布不同,旋转矩阵是否仍有效?INT2 内核在 358B 模型上的 MFU 数据没有披露。
参考文献
-
Zhou, Z., Zhuang, D., Li, J., et al. (2026). OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization. arXiv:2605.17757 [cs.LG].
-
Dao, T., et al. (2022). FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. NeurIPS.
-
Ashkboos, S., et al. (2024). QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks. ICML.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。