"这两层是等价的"——这句话的意思取决于你怎么测

你想给一个 Transformer 瘦身。拆掉几层，看看还能不能跑。但哪层是多余的？你决定测一下每一层和其他层的"等价性"——如果第 5 层和第 7 层做的事差不多，那你可以砍掉其中一层。

问题在于："等价性"不是一个属性。

这是 Garcia 在最近一篇 arXiv 论文里的核心观点。他说研究者们经常用两种不同的测试来回答"两层是否等价"，实际上这两种测试问的是不同的问题。

🔁 测试一：替换

你从第 5 层取出输出，然后把它塞到第 7 层的输入位置。然后你问：模型的最终输出变化大吗？如果变化小，说明第 7 层做的事和第 5 层没什么差别——你在位置上替换掉它，它也没抗议。

🔄 测试二：交换

你把第 5 层和第 7 层对调位置——不是把一层输出给另一层，是把整个层互换。你问：模型在说"这两个顺序可以换吗？"

两种测试听起来很像，都是"看一下两层的输出能不能互换"。但 Garcia 证明了一件让人不安的事情：它们给你的答案经常不一样。

📊 到底有多不一样？

Garcia 用这两种测试跑了 Pythia、Qwen3-8B 和 Llama-3.1-8B 三个系列的模型。

在 Pythia 上——一个从零开始训练的 410M 和 1.4B 参数规模的模型——"替换"和"交换"的差距从训练的早期就开始出现，到训练结束时变得很大。也就是说，一个刚初始化的模型和一个训练完成的模型，即使参数一样多，它们的"层间等价结构"也不一样。训练本身在塑造层的不可替代性。

更戏剧性的是 Qwen3-8B。在 Qwen 上，如果用"交换"测试来指导剪枝，你可以在造成同样损失的情况下剪掉多得多的层。用"替换"测试来剪，效果就差得多。一个选择可能是安全的，另一个选择可能是灾难性的——而判断哪个选择是正确的，不取决于模型本身，取决于你问问题的方式。

Llama-3.1-8B 则给出了第三种模式：两种测试给出了不同的 KL 散度值，但在实际剪枝后果上差异不大。Garcia 说这意味着"度量差距不需要一一映射到剪枝后果"——不同的测试告诉你不同的东西，但有时在操作上它们收敛到相同的事实。

🔬 这到底意味着什么

这不是一篇关于"哪层可以剪"的论文。这是一篇关于"你问的问题决定了你得到的答案"的论文。

如果你在问"这两层的输出是不是差不多"，你用的是替换测试。如果你在问"这两层的功能是不是差不多"，你用的是交换测试。两者都是合理的，但两者问的不是同一个概念。当你用一个数字（"第 5 层和第 7 层的 KL 散度是 0.03"）来概括"等价性"时，你需要知道这个数字是顺着哪个问题算出来的。

Garcia 的建议很直白：在剪层或合并层之前，两种 swap-KL 都跑一下。诊断只需要无标签的前向传播——不需要额外训练，不需要标注数据。只需要跑两遍，看看数字是不是对得上。

🤷 我不知道的东西

有两件事我没搞清楚。

第一，这篇论文在 Pythia、Qwen 和 Llama 三个不同系列上得到了三种不同的"替换 vs 交换"差距模式。这意味着差距不是一个固定的测量误差——它取决于架构、训练过程、甚至是初始化。但论文没有给出一个通用的解释，说明"为什么某个模型的差距大、某个模型的差距小"。这是模型的什么属性导致的？我不知道。

第二，"替换"和"交换"只是在"输出空间的等价性"这个尺度上的两种选择。还有没有第三种、第四种测试——比如"微调到收敛后再看差距"或"从不同随机种子出发看层间路径依赖"？我不知道，也不知道这些不同的测试是否会产生更大的分歧。

但核心信息很清楚了：当你听到"这两层是等价的"，第一个问题应该是"你怎么测的"。

---

参考文献

1. Garcia, G. (2026). *Layer Equivalence Is Not a Property of Layers Alone: How You Test Redundancy Changes What You Find*. arXiv:2605.16234 [cs.LG]. https://arxiv.org/abs/2605.16234

2. Gromov, A., et al. (2024). *The Unreasonable Ineffectiveness of the Deeper Layers*. arXiv:2403.17887.

3. Menon, A. K., et al. (2020). *A Fast Post-Training Pruning Framework for Transformers*. NeurIPS 2020.

4. Csiszár, I. (1975). *I-Divergence Geometry of Probability Distributions*. The Annals of Probability, 3(1), 146-158.

5. Frankle, J., & Carbin, M. (2019). *The Lottery Ticket Hypothesis*. ICLR 2019.

"这两层是等价的"——这句话的意思取决于你怎么测

🌟 智谱 GLM-5 已上线