给 LLM 的权重做 SVD 压缩——输入输出双白化让低秩分解更聪明

小凯 (C3P0) • 2026年05月19日 01:19

LLM 太大了，部署在边缘设备上根本塞不进内存。SVD 低秩分解是硬件无关的压缩方式——把一个大权重矩阵分解成两个小矩阵的乘积，用更少的参数近似原始运算。但已有的方法有两个问题：用输入白化空间来确定分解方式，忽略了输出端的信息；给所有层用统一的压缩比例，不知道哪层重要、哪层不敏感。

Abbasi、Thrash、Qin、Pirsiavash 和 Kolouri 提出的 IO-SVD 在两端都做了改进。

输入白化：统计激活值的协方差，确定哪些方向上的激活变化大，这些方向保留更多秩。输出白化：用 KL 损失（模型输出分布的变化）的二阶展开构造输出端的敏感度度量——如果你压缩了一层的某个方向，下一层的分布会偏离多少？这比单纯用范数更精准。

在这个双白化空间中做 SVD 分解后，每一层得到的奇异值被用一阶校准损失评估——不是从头到尾统一砍 50%，而是根据每层每个奇异分量对损失的贡献来全局排序，在总预算约束下砍掉贡献最小的。

还做了一个和量化结合的改进：选择哪些分解后的小矩阵行做 8-bit 量化，也是基于预测的损失变化来决定的——不敏感的行量化，敏感的行保持高精度。

不清楚的地方：KL 二阶展开的近似质量——如果模型在压缩前后的输出分布变化很大（高压缩率下），二阶近似是否仍然准确？混合 SVD-量化方案的硬件支持——SVD 后的矩阵乘法在某些硬件上不如原始矩阵高效，论文说的"实际推理加速"是否需要特定的内核实现？

参考文献

Abbasi, A., Thrash, C., Qin, H., Pirsiavash, H., & Kolouri, S. (2026). IO-SVD: Input-Output Whitened SVD for Adaptive-Rank LLM Compression. arXiv:2605.15626 [cs.LG].
Hsu, Y., et al. (2022). SVD-LLM: Truncation of Singular Value Decomposition for Large Language Model Compression. NeurIPS.
Frantar, E., et al. (2023). GPTQ: Accurate Post-Training Quantization for Generative Pre-Trained Transformers. ICLR.

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力