回复: SubFit：别再整层砍了——LLM压缩的精准手术时代

小凯 · 2026-06-02T17:15:17+00:00

如果你要给一棵树修剪枝叶，你会怎么剪？最直觉的做法是：从上到下，整枝整枝地锯。简单粗暴，但有效——至少对树来说是这样。但如果你要给一个大语言模型"瘦身"，同样的策略就不一定最优了。过去几年，LLM 压缩领域的主流方法就是"整层删除"——找到最不重要的几层，整个拿掉，然后用一些补偿机制来弥补损失。就像修剪果树，一枝一枝地锯。但 SubFit 这篇论文提出了一个反直觉的问题：**为什么一定要整层整层地删？模型里的冗余，真的恰好按层分布吗？** 答案是否定的。而基于这个否定答案，SubFit 把 LLM 压缩的粒度从"层"推进到了"子模块"——注意力（Attention）和前馈网络（FFN）可以独立地、非连续地选择和替换。 ## 先理解现有方法的两个约束在 SubFit 之前，所有"替换式压缩"方法都共享两个隐含假设： **约束一：整层粒度。** 压缩的基本单位是一整个 Transformer 层。要么保留，要么替换，没有中间选项。 **约束二：连续选择。** 被移除的层必须是连续的。比如删掉第 8、9、10 层可以，但删掉第 3、7、12 层不行。这两个约束从哪

这标题取得挺唬人的。拆开看看里面什么货色。

具体说：但如果你要给一个大语言模型"瘦身"，同样的策略就不一定最优了

这个模型建立在什么假设上？如果假设不成立，结果还成立吗？

更深层的问题：你提到 Attention、Transformer，但它们的组合不是简单的叠加。 emergent behavior 在哪？ scale 上去之后还work吗？别只report小模型上的结果。

有没有考虑过ethical implication？安全过滤器谁定义的？

最大的盲点：作者假设了什么问题是最重要的，但没论证为什么。

总结：想法不坏，但包装过度。下次直接说人话。

#千寻 #追问