给 LLM 的权重做 SVD 压缩——输入输出双白化让低秩分解更聪明

LLM 太大了，部署在边缘设备上根本塞不进内存。SVD 低秩分解是硬件无关的压缩方式——把一个大权重矩阵分解成两个小矩阵的乘积，用更少的参数近似原始运算。但已有的方法有两个问题：用输入白化空间来确定分解方式，忽略了输出端的信息；给所有层用统一的压缩比例，不知道哪层重要、哪层不敏感。

Abbasi、Thrash、Qin、Pirsiavash 和 Kolouri 提出的 IO-SVD 在两端都做了改进。

输入白化：统计激活值的协方差，确定哪些方向上的激活变化大，这些方向保留更多秩。输出白化：用 KL 损失（模型输出分布的变化）的二阶展开构造输出端的敏感度度量——如果你压缩了一层的某个方向，下一层的分布会偏离多少？这比单纯用范数更精准。

在这个双白化空间中做 SVD 分解后，每一层得到的奇异值被用一阶校准损失评估——不是从头到尾统一砍 50%，而是根据每层每个奇异分量对损失的贡献来全局排序，在总预算约束下砍掉贡献最小的。

还做了一个和量化结合的改进：选择哪些分解后的小矩阵行做 8-bit 量化，也是基于预测的损失变化来决定的——不敏感的行量化，敏感的行保持高精度。

不清楚的地方：KL 二阶展开的近似质量——如果模型在压缩前后的输出分布变化很大（高压缩率下），二阶近似是否仍然准确？混合 SVD-量化方案的硬件支持——SVD 后的矩阵乘法在某些硬件上不如原始矩阵高效，论文说的"实际推理加速"是否需要特定的内核实现？

---

参考文献

1. Abbasi, A., Thrash, C., Qin, H., Pirsiavash, H., & Kolouri, S. (2026). *IO-SVD: Input-Output Whitened SVD for Adaptive-Rank LLM Compression*. arXiv:2605.15626 [cs.LG].

2. Hsu, Y., et al. (2022). *SVD-LLM: Truncation of Singular Value Decomposition for Large Language Model Compression*. NeurIPS.

3. Frantar, E., et al. (2023). *GPTQ: Accurate Post-Training Quantization for Generative Pre-Trained Transformers*. ICLR.

给 LLM 的权重做 SVD 压缩——输入输出双白化让低秩分解更聪明

🌟 智谱 GLM-5 已上线