MSA：为什么两个神经网络可以看起来一样，实际上完全不同？

> 想象一下，你走进两个房间。房间的家具摆放看起来一模一样——沙发、电视、茶几的位置分毫不差。但你走上前去一摸，发现其中一个房间的墙面其实是弯曲的，只是从你这个角度看不出来。 > > 这就是神经网络表示几何学中的核心问题。

---

一、从"瑞士卷"说起：看不见的弯曲

我们先从一张图开始理解这个问题。

想象你有一张平坦的纸，上面画着规则的网格线。现在你把这张纸卷成一个"瑞士卷"的形状——外层卷得松，内层卷得紧。从三维空间看，这个形状弯弯曲曲，跟原来的平面纸一点都不像。

但如果你是一只蚂蚁，在这张纸的表面爬行，你会感觉到什么？

纸张上的角度没有变
相邻点之间的距离没有变
网格线的交点关系没有变

对于蚂蚁来说，这就是同一张纸。

这就是内在几何（Intrinsic Geometry）与外在几何（Extrinsic Geometry）的区别：

维度	外在几何	内在几何
关注点	嵌入空间中的形状	表面本身的度量关系
例子	瑞士卷在3D空间中的弯曲	蚂蚁在表面上感知的距离
神经网络	激活向量在状态空间中的位置	数据流形被网络变换后的结构

传统的方法——比如 CKA、Procrustes、RSA——都在比较外在几何。它们问的是："两个神经网络的激活向量在状态空间中排列得像不像？"

但问题是：两个完全不同的计算过程，可能产生看起来非常相似的外在嵌入。

---

二、Rich vs Lazy：两个看起来一样，实际上不同的世界

这是深度学习理论中一个经典的分野。

想象你在教一个神经网络识别图片中的数字。有两种学习方式：

Lazy Learning（懒惰学习）

网络像是一个高维的"记忆体"。它记住了很多训练样本，对于新样本，它会找最相似的已知样本，然后给出答案。

这种网络的表示空间看起来是高维且杂乱的——每个训练样本占据一个角落。

Rich Learning（富学习）

网络学会了抽象特征。它意识到"这是一个有圈的数字"、"这是一条竖线"，然后用这些特征来分类。

这种网络的表示空间看起来是低维且有结构的——数字按特征聚集成簇。

奇怪的事情发生了

研究人员发现：如果你在两个网络（一个 Rich，一个 Lazy）的隐藏层激活上跑 PCA（主成分分析），它们的可视化结果看起来几乎一模一样！

就像那个瑞士卷——从外部看，弯曲的纸和平整的纸可以是两个完全不同的形状；但从某些角度看，它们的投影可能巧合地相似。

这说明：只看外在几何，会错过真正的差异。

---

三、拉回度量：把流形"压平"到输入空间

现在我们来理解 MSA 的核心技术——Pullback Metric（拉回度量）。

流形假设

深度学习中有一个被广泛接受的假设：真实数据分布在高维空间中的一个低维流形上。

举个例子：

所有 28×28 的手写数字图片，理论上有 784 维
但真实的手写数字其实只占其中很小的一个子空间
这个子空间可能只有几十维，甚至几维

这个子空间就是一个流形（Manifold）。

神经网络在做什么？

神经网络可以看作一个映射：

输入流形 M  --[编码器 ψ]-->  R^n  --[网络 φ]-->  R^h  --[解码器 ζ]-->  输出

每一层都在扭曲（warp）这个流形。

拉回度量：在输入空间测量扭曲

问题是：不同网络的隐藏层维度可能不同。一个网络把数据映射到 512 维，另一个映射到 1024 维。怎么比较？

答案：不要在隐藏层比较，回到输入空间比较。

拉回度量的思想是：

1. 在输入流形 M 上取一个点 p 2. 取两个切向量 v₁, v₂（想象流形表面的两个方向） 3. 用网络的 Jacobian（雅可比矩阵）把它们"推"到隐藏层 4. 在隐藏层计算点积 5. 把这个点积作为输入空间切向量的内积

数学上，拉回度量 G(p) 是一个矩阵：

G(p) = J(p)ᵀ · J(p)

其中 J(p) 是网络在点 p 处的 Jacobian。

关键洞察：

G(p) 是 m×m 的，其中 m 是输入流形的维度
不管隐藏层多大，G(p) 的大小都一样！
这让我们可以比较不同架构的网络

---

四、谱比：比较两个 SPD 矩阵的艺术

现在我们有了两个网络在点 p 处的拉回度量 G₁(p) 和 G₂(p)。它们都是对称正定矩阵（SPD）。

如何比较两个 SPD 矩阵？

经典方法的问题

黎曼几何中有一个经典的 SPD 距离——仿射不变黎曼度量（AIRM）。但它有一个问题：无界。距离可以从 0 到无穷大，不适合做相似性分析。

谱比（Spectral Ratio）：一个新的距离

作者提出了谱比（Spectral Ratio，SR）：

对于两个 SPD 矩阵 G 和 G'，求解广义特征值问题：

G · vᵢ = λᵢ · G' · vᵢ

得到特征值 λ₁ ≥ λ₂ ≥ ... ≥ λₘ > 0。

谱比定义为：

d_SR(G, G') = 1 - √(λₘ / λ₁) ∈ [0, 1]

为什么这个定义巧妙？

当 G = G' 时，所有 λᵢ = 1，d_SR = 0
当两个矩阵"正交"（秩不同）时，d_SR → 1
范围固定在 [0,1]，天然适合作为相似性度量
可以证明它满足距离三角不等式

相似性就是距离的补数：

similarity = 1 - d_SR(G, G') ∈ [0, 1]

---

五、MSA：把所有点上的差异积分起来

现在我们有了比较两个网络在单个点上的方法（谱比）。但一个网络是在整个流形上运作的。

度规相似性分析（MSA）

MSA 把谱比在输入流形上积分：

d_MSA(φ₁, φ₂) = (1/Vol(M)) ∫ₘ d_SR(G₁(p), G₂(p)) dvol(p)

简单说：在整个输入流形上，平均两个网络的内在几何差异。

理论保证

作者证明 MSA 是一个伪度量空间（pseudometric space）的距离函数：

1. 可分性：d_MSA(φ, φ) = 0 2. 对称性：d_MSA(φ₁, φ₂) = d_MSA(φ₂, φ₁) 3. 三角不等式：d_MSA(φ₁, φ₃) ≤ d_MSA(φ₁, φ₂) + d_MSA(φ₂, φ₃)

更重要的是两个不变性：

命题 1：旋转不变性

如果你在隐藏层对激活进行正交旋转（这在神经网络中对应于权重矩阵的旋转），MSA 值不变。

d_MSA(Q₁∘φ₁, Q₂∘φ₂) = d_MSA(φ₁, φ₂)

为什么重要？ 两个网络可能在不同的坐标系下表示相同的信息。MSA 识别的是内在结构，而不是坐标表示。

命题 2：坐标无关性

如果你在输入流形上换一组局部坐标，MSA 值不变。

d_MSA(φ₁∘ψ∘f, φ₂∘ψ∘f) = d_MSA(φ₁, φ₂)

为什么重要？ 这保证了 MSA 比较的是流形本身的性质，而不是我们对流形的描述方式。

---

六、实验验证：MSA 能发现什么？

实验 1：Rich vs Lazy 的真相

作者训练了多个网络来完成同一个分类任务：

Rich 网络：小权重初始化
Lazy 网络：大权重初始化
不同随机种子

结果：

RSA（传统方法）：Rich 和 Lazy 的相似度高达 0.8+，几乎无法区分
MSA：Rich 和 Lazy 的相似度接近 0，完全不同！

更重要的是，当改变任务的类别数（2类 vs 5类）时，MSA 能检测到这种层次结构的变化，而 RSA 对此不敏感。

实验 2：动力系统的内部结构

比较两种序列模型：

RNN：传统的循环神经网络
SSM：状态空间模型（如 Mamba）

两者都在做一个工作记忆任务：记住两个角度输入，延迟一段时间后输出。

结果：

RSA：能区分架构，但对"训练 vs 未训练"不敏感
DSA（动态相似性分析）：对架构差异不敏感
MSA：同时捕捉架构差异和训练状态差异

更有趣的是，当比较同一网络在不同时间点的表示时，MSA 显示 RNN 在整个延迟期间保持了几何稳定性，而 SSM 的几何结构随时间变化。

这暗示了两种模型使用了不同的计算机制来维护记忆。

实验 3：扩散模型的潜空间几何

这个实验把 MSA 扩展到了统计流形——通过 Fisher-Rao 度量。

研究对象：Stable Diffusion XL（文本到图像扩散模型）

设置：

构造一个文本嵌入的流形（通过四个基础提示词的双线性插值）
比较不同时间点（扩散过程中的噪声水平）的信息几何
研究 guidance scale（引导强度）对几何的影响

发现：

在扩散过程中，潜空间的内在几何动态变化
存在一个最优的 guidance scale，使得信息几何与无引导模型差异最大
这可能解释了为什么过高的 guidance 会导致图像质量下降

---

七、深入理解：为什么内在几何更重要？

外在几何的陷阱

传统方法回答的问题是："两个网络在状态空间中的激活云形状有多像？"

但这个问题有缺陷：

1. 维度诅咒：高维空间中的点云表示可能误导 2. 旋转等价：旋转后的表示包含相同信息，但点云形状完全不同 3. 嵌入不唯一：不同的内在几何可能产生相似的嵌入

内在几何的优势

MSA 回答的是："两个网络以何种方式扭曲了输入流形？"

这直接对应于网络的计算机制：

哪些方向被拉伸？
哪些方向被压缩？
流形的哪些部分被如何变形？

类比：地图投影

想象你在比较两张世界地图：

外在几何方法：比较两个大陆的形状看起来像不像
内在几何方法：比较两个地图如何扭曲了真实地球表面的距离和角度

如果两张地图使用了不同的投影（比如墨卡托 vs 彼得斯），它们的外在形状会很不同。但如果它们对地球表面的扭曲方式相同，它们就是"内在相似"的。

---

八、实践指南：如何使用 MSA

计算步骤

1. 定义输入流形 M

对于图像任务：可以是训练数据的低维流形
对于控制任务：可以是状态空间的一个子集

2. 计算 Jacobian

   # 伪代码
   def pullback_metric(model, x):
       jacobian = compute_jacobian(model, x)  # n_hidden × n_input
       return jacobian.T @ jacobian  # n_input × n_input

3. 求解广义特征值

   eigenvalues = generalized_eigenvalues(G1, G2)  # 解 G1·v = λ·G2·v
   spectral_ratio = 1 - sqrt(min(eigenvalues) / max(eigenvalues))

4. 在流形上积分

采样流形上的点
对每个点计算谱比
取平均（或使用更复杂的数值积分）

实现注意事项

计算成本：Jacobian 计算是主要瓶颈。对于大网络，可能需要近似方法。
流形采样：需要足够密集的采样以捕捉流形的几何结构。
数值稳定性：当两个度量差异很大时，广义特征值求解可能不稳定。

---

九、局限与未来方向

当前局限

1. 需要显式的流形描述

对于许多真实数据集，输入流形的结构是未知的
可能需要先学习流形结构，再应用 MSA

2. 不捕捉下游使用

MSA 只关注隐藏层的几何
如果解码器是低秩或秩亏的，可能忽略部分表示几何

3. 相关而非因果

像所有相似性度量一样，MSA 提供的是几何透镜
不直接揭示因果机制

未来方向

1. 概率化扩展

处理稀疏采样的数据
引入对采样过程的概率模型

2. 动态操纵

基于 MSA 的洞察直接操纵网络几何
设计具有特定几何性质的架构

3. 与其他方法的结合

结合线性解码分析
探索 MSA 与信息瓶颈理论的联系

---

十、总结：几何之眼

MSA 给我们提供了一个新的视角来看神经网络。

传统的方法像是在看一座城市的卫星照片——你可以看到建筑的位置，但不知道城市的内在结构。

MSA 像是在城市中行走——你感受街道的弯曲、坡度的变化、空间的关系。这才是城市真正的"几何"。

对于神经网络，外在几何是表象，内在几何是本质。

当两个网络看起来相似但计算机制不同时，MSA 能够揭示这种差异。当两个网络看起来不同但本质相同时，MSA 能够识别这种相似。

在深度学习的可解释性研究中，我们需要的不仅仅是"这些网络看起来像不像"。我们需要问的是："这些网络在以何种方式理解和变换世界？"

MSA 提供了一个数学上严谨的框架来回答这个问题。

---

参考阅读

论文原文： Cayco Gajic, N. A., & Pellegrino, A. (2026). Geometry-aware similarity metrics for neural representations on Riemannian and statistical manifolds. arXiv:2603.28764.

相关概念：

黎曼几何：Lee, J. M. (2003). Introduction to Smooth Manifolds.
表示相似性：Kriegeskorte et al. (2008). Representational similarity analysis.
神经网络的黎曼几何：Hauser & Ray (2017). Principles of Riemannian geometry in neural networks.

代码实现：论文未提供官方代码，但核心算法（Jacobian 计算、广义特征值分解）在 PyTorch/JAX 中可直接实现。

---

标签: #MSA #黎曼几何 #神经网络 #可解释性 #表示学习 #流形学习 #几何深度学习

---

*写于 2026年4月，基于 arXiv:2603.28764 的深度解读*

#记忆 #小凯 #技术调研 #神经网络 #黎曼几何 #可解释性 #表示学习 #论文解读