你想给一个 Transformer 瘦身。拆掉几层,看看还能不能跑。但哪层是多余的?你决定测一下每一层和其他层的"等价性"——如果第 5 层和第 7 层做的事差不多,那你可以砍掉其中一层。
问题在于:"等价性"不是一个属性。
这是 Garcia 在最近一篇 arXiv 论文里的核心观点。他说研究者们经常用两种不同的测试来回答"两层是否等价",实际上这两种测试问的是不同的问题。
**🔁 测试一:替换**
你从第 5 层取出输出,然后把它塞到第 7 层的输入位置。然后你问:模型的最终输出变化大吗?如果变化小,说明第 7 层做的事和第 5 层没什么差别——你在位置上替换掉它,它也没抗议。
**🔄 测试二:交换**
你把第 5 层和第 7 层对调位置——不是把一层输出给另一层,是把整个层互换。你问:模型在说"这两个顺序可以换吗?"
两种测试听起来很像,都是"看一下两层的输出能不能互换"。但 Garcia 证明了一件让人不安的事情:它们给你的答案经常不一样。
**📊 到底有多不一样?**
Garcia 用这两种测试跑了 Pythia、Qwen3-8B 和 Llama-3.1-8B 三个系列的模型。
在 Pythia 上——一个从零开始训练的 410M 和 1.4B 参数规模的模型——"替换"和"交换"的差距从训练的早期就开始出现,到训练结束时变得很大。也就是说,一个刚初始化的模型和一个训练完成的模型,即使参数一样多,它们的"层间等价结构"也不一样。训练本身在塑造层的不可替代性。
更戏剧性的是 Qwen3-8B。在 Qwen 上,如果用"交换"测试来指导剪枝,你可以在造成同样损失的情况下剪掉多得多的层。用"替换"测试来剪,效果就差得多。一个选择可能是安全的,另一个选择可能是灾难性的——而判断哪个选择是正确的,不取决于模型本身,取决于你问问题的方式。
Llama-3.1-8B 则给出了第三种模式:两种测试给出了不同的 KL 散度值,但在实际剪枝后果上差异不大。Garcia 说这意味着"度量差距不需要一一映射到剪枝后果"——不同的测试告诉你不同的东西,但有时在操作上它们收敛到相同的事实。
**🔬 这到底意味着什么**
这不是一篇关于"哪层可以剪"的论文。这是一篇关于"你问的问题决定了你得到的答案"的论文。
如果你在问"这两层的输出是不是差不多",你用的是替换测试。如果你在问"这两层的功能是不是差不多",你用的是交换测试。两者都是合理的,但两者问的不是同一个概念。当你用一个数字("第 5 层和第 7 层的 KL 散度是 0.03")来概括"等价性"时,你需要知道这个数字是顺着哪个问题算出来的。
Garcia 的建议很直白:在剪层或合并层之前,两种 swap-KL 都跑一下。诊断只需要无标签的前向传播——不需要额外训练,不需要标注数据。只需要跑两遍,看看数字是不是对得上。
**🤷 我不知道的东西**
有两件事我没搞清楚。
第一,这篇论文在 Pythia、Qwen 和 Llama 三个不同系列上得到了三种不同的"替换 vs 交换"差距模式。这意味着差距不是一个固定的测量误差——它取决于架构、训练过程、甚至是初始化。但论文没有给出一个通用的解释,说明"为什么某个模型的差距大、某个模型的差距小"。这是模型的什么属性导致的?我不知道。
第二,"替换"和"交换"只是在"输出空间的等价性"这个尺度上的两种选择。还有没有第三种、第四种测试——比如"微调到收敛后再看差距"或"从不同随机种子出发看层间路径依赖"?我不知道,也不知道这些不同的测试是否会产生更大的分歧。
但核心信息很清楚了:当你听到"这两层是等价的",第一个问题应该是"你怎么测的"。
---
**参考文献**
1. Garcia, G. (2026). *Layer Equivalence Is Not a Property of Layers Alone: How You Test Redundancy Changes What You Find*. arXiv:2605.16234 [cs.LG]. https://arxiv.org/abs/2605.16234
2. Gromov, A., et al. (2024). *The Unreasonable Ineffectiveness of the Deeper Layers*. arXiv:2403.17887.
3. Menon, A. K., et al. (2020). *A Fast Post-Training Pruning Framework for Transformers*. NeurIPS 2020.
4. Csiszár, I. (1975). *I-Divergence Geometry of Probability Distributions*. The Annals of Probability, 3(1), 146-158.
5. Frankle, J., & Carbin, M. (2019). *The Lottery Ticket Hypothesis*. ICLR 2019.
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力