两个神经网络有多像？用"随机漫步"找出答案

你训练了两个不同架构的模型，比如一个卷积网络和一个 Transformer，都在 ImageNet 上做了分类。它们都对着一张猫图片说"猫"。但这只意味着它们在输出层达成了共识——它们在中间层看到的"猫"是一样的东西吗？

这不是一个抽象问题。如果你想知道两个模型的行为是否真的相似——它们的错误模式是否一致、它们对分布外数据的反应是否相同——你需要比较它们的内部表示。在模型合并、蒸馏、迁移学习中，这个比较至关重要。

最常用的比较工具叫 Centered Kernel Alignment——CKA。把每层的激活值拿出来，算一个表示相似性矩阵，然后比两个矩阵。但 Khandait 和 Gerken 在最近的一篇论文里（2605.15901）指出：CKA 只用了一个分辨率。而两个模型可能在一个分辨率下看起来很相似，在另一个分辨率下完全不同。

🗺️ 扩散几何

扩散几何是一种流行于流形学习中的框架。它的核心思想很简单：你在数据上定义一个随机游走——从每个数据点出发，以和它相似的其他点为目标随机迈出一步——然后你观察这个随机游走的长时间行为。

如果你的数据点挤在一个"好的"簇里，随机游走会在这个簇里徘徊很久再跳出去。如果你的数据点分散在噪声中，随机游走会乱跳。这些步数和跳跃的统计信息，就刻画了数据在不同尺度上的几何结构——短时间（小尺度）看簇内结构，长时间（大尺度）看簇间结构。

Khandait 和 Gerken 的关键观察是：表示相似性矩阵（RSM）——CKA 用的那种——和随机游走的转移矩阵之间有等价关系。因为 RSM 可以用行随机化的方式转换成马尔可夫矩阵。一旦你做了这个转换，整个扩散几何的工具箱就可用到表示比较上来了。

🔬 多尺度 CKA

具体来说，他们构造了转移矩阵的 t 次幂。当 t=1 时，你每一步只能跳到直接的邻居。当 t 更大时，你可以沿着数据流形走得更远——这个分辨率就从"局部"变成了"全局"。t 就像一个放大镜的旋钮。

不同 t 值下的 CKA 分数可能完全不同。两个模型可能在局部表示上非常相似（t=1 时 CKA 很高），但在全局流形结构上大相径庭（t=10 时 CKA 很低）。或者反过来。如果你只看 t=1，你可能完全错过了全局的差异。

🔗 从层到网络

他们还更进一步。现有方法大多做"逐层比较"——第 3 层和第 5 层比，第 5 层和第 8 层比。但网络作为一个整体，不同层之间有非线性交互，逐层比较可能丢失了这些交互信息。

他们的解决方案是"交替扩散"——用交替扩散的技术把多层的马尔可夫矩阵融合成一个单一的算子。这个新算子同时编码了多个层次上的样本几何关系。然后你可以直接在这个融合空间上做网络到网络的比较，而不是逐层比。

在最难的 ReSi 基准上——涵盖 14 种架构、7 个数据集、3 个领域——他们的方法在语言和视觉任务上都达到了当前最佳。

🤷 不清楚的地方

第一，"交替扩散"如何保证融合后的算子保留了各个层的独立几何信息而不是互相湮灭？论文说这是一个"融合"操作，但融合可能意味着信息压缩。在什么条件下融合损失大？我不清楚。

第二，t 的选择变成了一个额外的超参数。论文说"多尺度"，但怎么选择哪些 t 值来包含在比较中？是等距采样，还是自适应选择？太多 t 增加计算量，太少可能遗漏关键尺度。论文在 ReSi 基准上做了全扫，但对新用户怎么设 t 没有给出简单指南。

第三，论文提到了 SoTA 的"准确性"和"输出相关性"，但我不清楚这个"准确性"是什么意思——是 CKA 分数本身的准确性（比如对真实相似度的估计误差）还是下游任务的性能？这个区别很重要。摘要没有分开说明。

但核心想法非常干净：表示比较不应该只在单一尺度上进行。扩散几何的工具告诉我们怎么把"旋转旋钮"这件事系统化。

---

参考文献

1. Khandait, A., & Gerken, J. E. (2026). *From Layers to Networks: Comparing Neural Representations via Diffusion Geometry*. arXiv:2605.15901 [cs.LG]. https://arxiv.org/abs/2605.15901

2. Kornblith, S., Norouzi, M., Lee, H., & Hinton, G. (2019). *Similarity of Neural Network Representations Revisited*. ICML 2019.

3. Coifman, R. R., & Lafon, S. (2006). *Diffusion Maps*. Applied and Computational Harmonic Analysis, 21(1), 5-30.

4. Lederman, R. R., & Talmon, R. (2018). *Learning the Geometry of Common Latent Variables Using Alternating-Diffusion*. Applied and Computational Harmonic Analysis, 44(3), 509-536.

5. Raghu, M., et al. (2017). *SVCCA: Singular Vector Canonical Correlation Analysis for Deep Learning Dynamics*. NeurIPS 2017.

两个神经网络有多像？用"随机漫步"找出答案

🌟 智谱 GLM-5 已上线