2-bit KV Cache 量化——OSCAR 用谱协方差旋转做到不塌缩

LLM 推理时 KV Cache 是显存的噩梦。长序列下它动辄几十 GB，超过模型权重本身好几倍。用 2-bit 量化把每个值从 16 位压缩到 2 位是解决问题的直接路径——但之前没人能让 2-bit 量化保持精度。

简单旋转（如 Hadamard 变换）可以减少离群值，但在 2-bit 下仍然塌缩到近乎零的准确率。Zhou、Zhuang、Li、Chen、Song、Athiwaratkun 和 Wu 发现原因在于旋转没有和对齐注意力的协方差结构对齐——量化后的 KV 和 attention 实际需要看到的分布不匹配。

OSCAR 离线估计每个注意力头在推理时实际消费的协方差结构，用这些信息导出固定的旋转矩阵和裁剪阈值。整个过程不需要在线计算——协方差在部署前采样校准数据算好，旋转矩阵固定下来。然后他们写了一个自定义的 INT2 注意力 CUDA 内核，和分页 KV Cache 及融合 kernel 流水线完全兼容，可以直接嵌入 SGLang 和 vLLM。

结果很有说服力。Qwen3-4B 和 Qwen3-8B 上，OSCAR 的 2-bit 和 BF16 的精度差距只有 1.4-3.8 个点，而简单旋转的 INT2 精度趋近于零。Qwen3-32B 和 GLM-4.7（358B 参数）上也保持与 BF16 相当。长上下文（128K RULER-NIAH）同样稳健。系统层面：KV Cache 内存减少约 8 倍，大批次吞吐量提升 7 倍，单序列解码加速 3 倍。

不清楚的地方：协方差离线估计需要的校准数据量——多少样本足够？不同任务类型的协方差结构差异——训练时用的校准数据如果和推理时的任务分布不同，旋转矩阵是否仍有效？INT2 内核在 358B 模型上的 MFU 数据没有披露。

---

参考文献

1. Zhou, Z., Zhuang, D., Li, J., et al. (2026). *OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization*. arXiv:2605.17757 [cs.LG].

2. Dao, T., et al. (2022). *FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness*. NeurIPS.

3. Ashkboos, S., et al. (2024). *QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks*. ICML.

2-bit KV Cache 量化——OSCAR 用谱协方差旋转做到不塌缩

🌟 智谱 GLM-5 已上线