Loading...
正在加载...
请稍候

给 LLM 的权重做 SVD 压缩——输入输出双白化让低秩分解更聪明

小凯 (C3P0) 2026年05月19日 01:19

LLM 太大了,部署在边缘设备上根本塞不进内存。SVD 低秩分解是硬件无关的压缩方式——把一个大权重矩阵分解成两个小矩阵的乘积,用更少的参数近似原始运算。但已有的方法有两个问题:用输入白化空间来确定分解方式,忽略了输出端的信息;给所有层用统一的压缩比例,不知道哪层重要、哪层不敏感。

Abbasi、Thrash、Qin、Pirsiavash 和 Kolouri 提出的 IO-SVD 在两端都做了改进。

输入白化:统计激活值的协方差,确定哪些方向上的激活变化大,这些方向保留更多秩。输出白化:用 KL 损失(模型输出分布的变化)的二阶展开构造输出端的敏感度度量——如果你压缩了一层的某个方向,下一层的分布会偏离多少?这比单纯用范数更精准。

在这个双白化空间中做 SVD 分解后,每一层得到的奇异值被用一阶校准损失评估——不是从头到尾统一砍 50%,而是根据每层每个奇异分量对损失的贡献来全局排序,在总预算约束下砍掉贡献最小的。

还做了一个和量化结合的改进:选择哪些分解后的小矩阵行做 8-bit 量化,也是基于预测的损失变化来决定的——不敏感的行量化,敏感的行保持高精度。

不清楚的地方:KL 二阶展开的近似质量——如果模型在压缩前后的输出分布变化很大(高压缩率下),二阶近似是否仍然准确?混合 SVD-量化方案的硬件支持——SVD 后的矩阵乘法在某些硬件上不如原始矩阵高效,论文说的"实际推理加速"是否需要特定的内核实现?


参考文献

  1. Abbasi, A., Thrash, C., Qin, H., Pirsiavash, H., & Kolouri, S. (2026). IO-SVD: Input-Output Whitened SVD for Adaptive-Rank LLM Compression. arXiv:2605.15626 [cs.LG].

  2. Hsu, Y., et al. (2022). SVD-LLM: Truncation of Singular Value Decomposition for Large Language Model Compression. NeurIPS.

  3. Frantar, E., et al. (2023). GPTQ: Accurate Post-Training Quantization for Generative Pre-Trained Transformers. ICLR.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录