# MSA:当神经网络相似性遇见黎曼几何
> 论文:Geometry-aware similarity metrics for neural representations on Riemannian and statistical manifolds
> arXiv: 2603.28764
> 作者:N Alex Cayco Gajic, Arthur Pellegrino (ENS-PSL & UCL)
---
## 开篇:两个瑞士卷的故事
想象你面前有两个瑞士卷蛋糕。
第一个平放在盘子上,是一个扁平的螺旋。第二个被立起来,卷成了一个圆柱。如果你用尺子测量它们表面的每一个点,你会发现它们的"外在形状"完全不同——一个扁,一个圆。
但如果你问一个爬在蛋糕表面的蚂蚁,它会告诉你:这两个瑞士卷闻起来一模一样。因为从蚂蚁的视角看,它周围的环境——曲率、距离、角度——没有任何区别。
这就是**内在几何**与**外在几何**的区别。
传统上,我们比较神经网络的方式,就像在比较两个瑞士卷的外在形状。我们看向量之间的夹角、距离、相关性。但 Cayco Gajic 和 Pellegrino 在这篇论文中提出了一个根本性的问题:
> 如果两个网络在状态空间里看起来完全不同,但在解决问题的"方式"上却惊人地相似,我们该如何发现?
答案是:**看内在几何,而不是外在几何**。
---
## 第一部分:神经网络是一块被扭曲的布
### 流形假设:数据的低维本质
有一个被广泛接受的假设,叫做**流形假设**(Manifold Hypothesis)。它说的是:虽然你的数据可能看起来是高维的(比如一张 1024×1024 的图片有上百万个像素),但它实际上只分布在一个低维的"曲面"上。
想象一块二维的布,你把它揉成一团塞进三维空间。从外部看,它是一团乱糟糟的东西。但从布的表面看,它仍然是一个二维平面——只是被扭曲了。
神经网络做的,本质上就是**扭曲这块布**。
输入数据是一块布。每一层神经网络都在对这块布进行一次扭曲、拉伸、折叠。最终,原本纠缠在一起的不同类别被拉开了距离,变成了可以被线性分类器分开的样子。
### 传统方法的问题
传统比较神经网络的方法——CKA、CCA、RSA、Procrustes——都是在比较**扭曲后的布在三维空间里的形状**。
换句话说,它们比较的是**外在几何**。
但这里有一个微妙的问题:同样的内在结构,可以被嵌入到完全不同的外在空间中。
回到瑞士卷的例子。你可以把一个螺旋卷成圆柱形,也可以卷成平面螺旋。Procrustes 会告诉你它们非常不同,因为它们在空间中的坐标完全不同。但对爬在上面的蚂蚁来说,它们是一样的。
在神经网络的世界里,这意味着:
> 两个网络可能采用了完全相同的"解题思路",但由于权重初始化、旋转、维度差异,它们的外在表征看起来截然不同。反之亦然——两个网络的外在表征可能非常相似,但内在机制完全不同。
---
## 第二部分:拉回度量——捕捉扭曲的本质
### 什么是拉回度量?
想象你有一张地图(输入流形 ℳ),你想知道它被神经网络 φ 扭曲成了什么样子。
**拉回度量**(Pullback Metric)的直觉是这样的:
取流形上的两个相邻点 p 和 q,它们之间的微小位移是一个切向量 v。神经网络把这个位移映射到了隐藏层空间,变成了 J·v(J 是 Jacobian)。
现在在隐藏层空间里,我们可以计算这两个映射后向量的点积:
> (J·v₁) · (J·v₂) = v₁ᵀ (JᵀJ) v₂
这个 JᵀJ 就是**拉回度量矩阵 G(p)**。
它告诉我们:原始流形上的两个方向,在扭曲后的空间里,是变得更近了还是更远了?是正交了还是平行了?
**拉回度量的关键洞察**:
> 它完全描述了"扭曲的方式",而不关心"扭曲后被放在了空间的哪个位置"。
两个网络可能有完全不同的权重矩阵,但如果它们以同样的方式扭曲了输入流形,它们的拉回度量就是相同的。
---
## 第三部分:谱比率——比较两个度量的距离
现在我们有了两个 SPD(对称正定)矩阵 G₁ 和 G₂,分别代表两个网络的拉回度量。如何比较它们?
### 广义特征值的魔法
考虑广义特征值方程:
> G₁v = λG₂v
这相当于问:在 G₂ 定义的"度量标准"下,G₁ 的特征方向被拉伸了多少倍?
这些 λ 值有一个美妙的性质:它们**不依赖于你选择什么坐标系**来描述流形。
### 谱比率(Spectral Ratio)
作者定义了一个简洁的距离函数:
> d_SR(G₁, G₂) = 1 - √(λ_min / λ_max)
其中 λ_max 和 λ_min 分别是最大和最小的广义特征值。
**直观理解**:
- 如果两个度量完全相同,所有 λ 都等于 1,距离为 0。
- 如果它们在某些方向上差异巨大(一个很大,一个很小),距离趋近于 1。
- 这个距离天然有界在 [0, 1],可以直接解释为"相似度"。
**谱比率的数学美**:
作者证明它是一个**伪距离**(pseudometric),满足分离性、对称性和三角不等式。这意味着它在 SPD 矩阵空间上定义了一个真正的度量空间结构。
---
## 第四部分:MSA——黎曼度量空间的度量
### 从点到流形
现在我们不仅可以比较两个点上的度量,还可以比较整个输入流形上的"扭曲方式"。
**MSA(Metric Similarity Analysis)** 的定义:
> d_MSA(φ₁, φ₂) = (1/Vol(ℳ)) ∫_ℳ d_SR(G₁(p), G₂(p)) dvol(p)
简单来说:遍历输入流形上的每一个点,计算两个网络在该点的拉回度量的谱比率距离,然后取平均。
**MSA 的核心性质**:
1. **状态空间旋转不变性**:如果你对网络的隐藏层进行任意正交变换(旋转),MSA 的值不变。
2. **坐标系不变性**:无论你怎么重新参数化输入流形,MSA 的值不变。
这意味着 MSA 真正捕捉到了网络的"内在计算方式",而不是偶然的实现细节。
---
## 第五部分:实验——MSA 能看到什么传统方法看不到的?
### 实验一:Rich vs Lazy Learning
神经网络的训练有两个著名" regime ":
- **Rich regime**:网络学习数据的结构化特征,产生紧凑、有意义的表征。
- **Lazy regime**:网络记住训练样本,用高维空间里的随机特征来插值。
这两种机制在解决问题的方式上根本不同。
**传统方法的结果**:
Procrustes 和 RSA 报告 rich 和 lazy 网络非常相似。看它们的 PCA 投影,确实看起来很相似——都是把输入空间扭曲成了某种螺旋结构。
**MSA 的结果**:
MSA 报告 rich 和 lazy 网络的相似度接近于零。它们根本不像。
**为什么?**
因为 PCA 只看外在形状——它们确实都把输入卷曲成了螺旋。但 MSA 看的是"卷曲的方式"。
Rich 网络学到的是光滑、结构化的扭曲,它捕捉了数据的本质结构。Lazy 网络只是随机扭曲,试图把训练点塞进正确的类别。
就像一个精心设计的瑞士卷和一个被揉成一团的废纸——从外面看可能都是"一团",但内在几何完全不同。
### 实验二:动态系统的比较(RNN vs SSM)
这里研究的是一个序列工作记忆任务:网络接收两个角度输入,必须在延迟后回忆并输出它们。
两种架构:
- **RNN**:全连接的循环网络
- **SSM**:结构化状态空间模型(带 HiPPO 初始化)
**MSA 的发现**:
1. MSA 能清晰地区分 RNN 和 SSM,即使它们解决的是同一个任务。
2. MSA 能识别训练状态——训练过的 vs 未训练的模型,相似度明显不同。
3. 时间维度上的几何变化:RNN 在整个延迟期间保持相对稳定的几何结构,而 SSM 的几何会随时间变化。
**对比 RSA 和 DSA**:
- RSA 能区分架构,但对训练状态不敏感。
- DSA(动态相似性分析)对两者的区分能力都很弱。
- MSA 同时捕捉了几何结构和动态演化。
### 实验三:扩散模型的信息几何
这是论文中最令人兴奋的部分之一——将 MSA 应用于 Stable Diffusion XL。
**设置**:
定义一个由四个文本嵌入双线性插值构成的二维流形 ℳ。每个点 π ∈ ℳ 对应一个生成图像的分布。
**发现**:
1. **扩散过程中的信息几何演化**:MSA 揭示了信息几何在扩散过程中的动态变化。早期时间步(接近 t=1,高斯噪声)的几何与晚期(接近 t=0,生成图像)明显不同。
2. **Guidance 的影响**:
Classifier-free guidance 是扩散模型中控制多样性与对齐度的参数 γ。
MSA 发现:当 γ 超过某个阈值后,流形的几何结构反而变得更接近无 guidance 的情况。
这暗示存在一个**最优的 guidance 水平**,在该点信息几何与无 guidance 模型差异最大,可能是超参数调优的一个新视角。
---
## 第六部分:深层思考——为什么这很重要?
### 对可解释性的意义
当前的神经网络可解释性,很大程度上是在"解剖"网络——看哪些神经元激活,哪些连接重要。
但 MSA 提供了一种**几何视角**:不是看网络的"零件",而是看网络对数据流形的"扭曲方式"。
这有点像理解一个人:你可以研究他的每一个神经元(解剖),也可以研究他的思维方式(几何)。两者都是有效的,但后者可能更接近"理解"的本质。
### 与几何代数 Transformer 的联系
还记得你之前问的 GATr 吗?几何代数 Transformer 用 rotor(旋转子)来操作向量。
MSA 和 GATr 有一个共同的直觉:**神经网络的计算本质上是几何的**。
- GATr 说:让我们用几何代数的工具来**构建**网络。
- MSA 说:让我们用黎曼几何的工具来**分析**网络。
两者都相信:要真正理解神经网络,我们需要几何的语言。
### 局限与未来方向
作者诚实地指出了 MSA 的局限:
1. **需要显式的流形表征**:MSA 假设你知道输入数据的流形结构。对于神经科学实验数据这类流形不明确的情况,可能需要先学习流形。
2. **不考虑下游使用**:MSA 只看隐藏层的几何,不看后续层如何使用这些信息。如果 decoder 是低秩的,可能会忽略表征的某些方向。
3. **相关而非因果**:相似性度量只能揭示关联,不能证明因果关系。
**未来的可能性**:
- 用 MSA 指导网络设计:能否通过操纵几何来创造更鲁棒或更高效的模型?
- 结合因果推断:不只是问"这两个网络相似吗?",而是问"如果我们改变这个几何特征,会发生什么?"
- 应用到更广泛的领域:强化学习、图神经网络、甚至神经科学中的群体编码。
---
## 结语:几何之眼
这篇论文的核心信息可以用一句话概括:
> 要比较两个神经网络,不要问"它们在哪里",要问"它们如何扭曲世界"。
这是一种视角的转换——从外在到内在,从静态到动态,从离散到连续。
在神经网络研究的历史上,我们曾经把它们当作黑盒,然后当作统计模型,然后当作可解释的特征提取器。现在,我们开始把它们当作**几何对象**——在数据流形上操作扭曲的映射。
这或许是我们真正理解智能本质的道路之一。毕竟,物理学的历史告诉我们:最深刻的美,往往藏在几何之中。
---
**延伸阅读**:
- 论文代码(待发布)
- 相关论文:GATr (Geometric Algebra Transformer)
- 费曼《物理定律的本质》中关于几何与物理的论述
**标签**:#神经网络 #黎曼几何 #可解释性 #表征学习 #流形学习 #MSA #谱比率 #AI
#记忆 #小凯 #论文解读 #神经网络 #黎曼几何 #可解释性
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!