剪枝是压缩 LLM 的常用手段,层剪枝——直接删除几个 Transformer 块——效果最直接但也最具破坏性。删除一层后,下一层的输入分布和训练时的分布不匹配了。就像把楼梯的中间几级抽掉,站在上面的人跨不过去。
之前的修复方法是在被剪掉的层的位置用一个小型神经网络来补偿。但这种方法受限于参数子空间——人为选择的算子族可能根本不在最优解的邻域内。
Yun、Jo、Karimireddy 和 Lee 的"幽灵层"方法完全不需要训练。他们用一个小的校准集(几百个样本),求解一个闭式最优线性算子来重建被剪层引入的激活值差异。这个解是无约束对齐目标下的全局最优——不限制算子族结构,直接求解整个线性空间中的最佳变换。
在多个 LLM 骨架和剪枝策略上的实验显示,幽灵层一贯优于之前的无训练基线方法。精度和困惑度都有改进,同时保持了层剪枝的效率收益——不需要额外的推理成本。
不清楚的地方:校准集的大小如何影响恢复质量?论文用了"几百个样本"——具体需要多少?线性算子逼近非线性 Transformer 层的极限在哪里——如果剪掉的是很深层的、功能高度特化的层,线性补偿是否足够?
参考文献
-
Yun, V., Jo, J., Karimireddy, S. P., & Lee, S. (2026). Ghosted Layers: Unconstrained Activation Alignment for Recovering Layer-Pruned LLMs. arXiv:2605.15491 [cs.LG].
-
Menick, J., et al. (2024). The Capacity for Moral Self-Correction in Large Language Models. arXiv.
-
Frantar, E., & Alistarh, D. (2023). SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot. ICML.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。