# MSA:为什么两个神经网络可以看起来一样,实际上完全不同?
> 想象一下,你走进两个房间。房间的家具摆放看起来一模一样——沙发、电视、茶几的位置分毫不差。但你走上前去一摸,发现其中一个房间的墙面其实是弯曲的,只是从你这个角度看不出来。
>
> 这就是神经网络表示几何学中的核心问题。
---
## 一、从"瑞士卷"说起:看不见的弯曲
我们先从一张图开始理解这个问题。
想象你有一张平坦的纸,上面画着规则的网格线。现在你把这张纸卷成一个"瑞士卷"的形状——外层卷得松,内层卷得紧。从三维空间看,这个形状弯弯曲曲,跟原来的平面纸一点都不像。
但如果你是一只蚂蚁,在这张纸的表面爬行,你会感觉到什么?
- 纸张上的角度没有变
- 相邻点之间的距离没有变
- 网格线的交点关系没有变
**对于蚂蚁来说,这就是同一张纸。**
这就是**内在几何**(Intrinsic Geometry)与**外在几何**(Extrinsic Geometry)的区别:
| 维度 | 外在几何 | 内在几何 |
|------|----------|----------|
| **关注点** | 嵌入空间中的形状 | 表面本身的度量关系 |
| **例子** | 瑞士卷在3D空间中的弯曲 | 蚂蚁在表面上感知的距离 |
| **神经网络** | 激活向量在状态空间中的位置 | 数据流形被网络变换后的结构 |
传统的方法——比如 CKA、Procrustes、RSA——都在比较**外在几何**。它们问的是:"两个神经网络的激活向量在状态空间中排列得像不像?"
但问题是:**两个完全不同的计算过程,可能产生看起来非常相似的外在嵌入。**
---
## 二、Rich vs Lazy:两个看起来一样,实际上不同的世界
这是深度学习理论中一个经典的分野。
想象你在教一个神经网络识别图片中的数字。有两种学习方式:
### Lazy Learning(懒惰学习)
网络像是一个高维的"记忆体"。它记住了很多训练样本,对于新样本,它会找最相似的已知样本,然后给出答案。
这种网络的表示空间看起来是**高维且杂乱的**——每个训练样本占据一个角落。
### Rich Learning(富学习)
网络学会了**抽象特征**。它意识到"这是一个有圈的数字"、"这是一条竖线",然后用这些特征来分类。
这种网络的表示空间看起来是**低维且有结构的**——数字按特征聚集成簇。
### 奇怪的事情发生了
研究人员发现:如果你在两个网络(一个 Rich,一个 Lazy)的隐藏层激活上跑 PCA(主成分分析),它们的可视化结果看起来**几乎一模一样**!
就像那个瑞士卷——从外部看,弯曲的纸和平整的纸可以是两个完全不同的形状;但从某些角度看,它们的投影可能巧合地相似。
**这说明:只看外在几何,会错过真正的差异。**
---
## 三、拉回度量:把流形"压平"到输入空间
现在我们来理解 MSA 的核心技术——**Pullback Metric**(拉回度量)。
### 流形假设
深度学习中有一个被广泛接受的假设:**真实数据分布在高维空间中的一个低维流形上**。
举个例子:
- 所有 28×28 的手写数字图片,理论上有 784 维
- 但真实的手写数字其实只占其中很小的一个子空间
- 这个子空间可能只有几十维,甚至几维
这个子空间就是一个**流形**(Manifold)。
### 神经网络在做什么?
神经网络可以看作一个映射:
```
输入流形 M --[编码器 ψ]--> R^n --[网络 φ]--> R^h --[解码器 ζ]--> 输出
```
每一层都在**扭曲**(warp)这个流形。
### 拉回度量:在输入空间测量扭曲
问题是:不同网络的隐藏层维度可能不同。一个网络把数据映射到 512 维,另一个映射到 1024 维。怎么比较?
**答案:不要在隐藏层比较,回到输入空间比较。**
拉回度量的思想是:
1. 在输入流形 M 上取一个点 p
2. 取两个切向量 v₁, v₂(想象流形表面的两个方向)
3. 用网络的 Jacobian(雅可比矩阵)把它们"推"到隐藏层
4. 在隐藏层计算点积
5. 把这个点积作为输入空间切向量的内积
数学上,拉回度量 G(p) 是一个矩阵:
```
G(p) = J(p)ᵀ · J(p)
```
其中 J(p) 是网络在点 p 处的 Jacobian。
**关键洞察**:
- G(p) 是 m×m 的,其中 m 是输入流形的维度
- 不管隐藏层多大,G(p) 的大小都一样!
- 这让我们可以比较不同架构的网络
---
## 四、谱比:比较两个 SPD 矩阵的艺术
现在我们有了两个网络在点 p 处的拉回度量 G₁(p) 和 G₂(p)。它们都是**对称正定矩阵**(SPD)。
如何比较两个 SPD 矩阵?
### 经典方法的问题
黎曼几何中有一个经典的 SPD 距离——**仿射不变黎曼度量**(AIRM)。但它有一个问题:**无界**。距离可以从 0 到无穷大,不适合做相似性分析。
### 谱比(Spectral Ratio):一个新的距离
作者提出了**谱比**(Spectral Ratio,SR):
对于两个 SPD 矩阵 G 和 G',求解广义特征值问题:
```
G · vᵢ = λᵢ · G' · vᵢ
```
得到特征值 λ₁ ≥ λ₂ ≥ ... ≥ λₘ > 0。
谱比定义为:
```
d_SR(G, G') = 1 - √(λₘ / λ₁) ∈ [0, 1]
```
**为什么这个定义巧妙?**
- 当 G = G' 时,所有 λᵢ = 1,d_SR = 0
- 当两个矩阵"正交"(秩不同)时,d_SR → 1
- 范围固定在 [0,1],天然适合作为相似性度量
- 可以证明它满足**距离三角不等式**
相似性就是距离的补数:
```
similarity = 1 - d_SR(G, G') ∈ [0, 1]
```
---
## 五、MSA:把所有点上的差异积分起来
现在我们有了比较两个网络在**单个点**上的方法(谱比)。但一个网络是在**整个流形**上运作的。
### 度规相似性分析(MSA)
MSA 把谱比在输入流形上积分:
```
d_MSA(φ₁, φ₂) = (1/Vol(M)) ∫ₘ d_SR(G₁(p), G₂(p)) dvol(p)
```
简单说:**在整个输入流形上,平均两个网络的内在几何差异**。
### 理论保证
作者证明 MSA 是一个**伪度量空间**(pseudometric space)的距离函数:
1. **可分性**:d_MSA(φ, φ) = 0
2. **对称性**:d_MSA(φ₁, φ₂) = d_MSA(φ₂, φ₁)
3. **三角不等式**:d_MSA(φ₁, φ₃) ≤ d_MSA(φ₁, φ₂) + d_MSA(φ₂, φ₃)
更重要的是两个**不变性**:
**命题 1:旋转不变性**
如果你在隐藏层对激活进行正交旋转(这在神经网络中对应于权重矩阵的旋转),MSA 值不变。
```
d_MSA(Q₁∘φ₁, Q₂∘φ₂) = d_MSA(φ₁, φ₂)
```
**为什么重要?** 两个网络可能在不同的坐标系下表示相同的信息。MSA 识别的是内在结构,而不是坐标表示。
**命题 2:坐标无关性**
如果你在输入流形上换一组局部坐标,MSA 值不变。
```
d_MSA(φ₁∘ψ∘f, φ₂∘ψ∘f) = d_MSA(φ₁, φ₂)
```
**为什么重要?** 这保证了 MSA 比较的是流形本身的性质,而不是我们对流形的描述方式。
---
## 六、实验验证:MSA 能发现什么?
### 实验 1:Rich vs Lazy 的真相
作者训练了多个网络来完成同一个分类任务:
- Rich 网络:小权重初始化
- Lazy 网络:大权重初始化
- 不同随机种子
**结果:**
- **RSA(传统方法)**:Rich 和 Lazy 的相似度高达 0.8+,几乎无法区分
- **MSA**:Rich 和 Lazy 的相似度接近 0,完全不同!
更重要的是,当改变任务的类别数(2类 vs 5类)时,MSA 能检测到这种层次结构的变化,而 RSA 对此不敏感。
### 实验 2:动力系统的内部结构
比较两种序列模型:
- **RNN**:传统的循环神经网络
- **SSM**:状态空间模型(如 Mamba)
两者都在做一个工作记忆任务:记住两个角度输入,延迟一段时间后输出。
**结果:**
- **RSA**:能区分架构,但对"训练 vs 未训练"不敏感
- **DSA**(动态相似性分析):对架构差异不敏感
- **MSA**:同时捕捉架构差异和训练状态差异
更有趣的是,当比较同一网络在不同时间点的表示时,MSA 显示 RNN 在整个延迟期间保持了几何稳定性,而 SSM 的几何结构随时间变化。
这暗示了两种模型使用了不同的计算机制来维护记忆。
### 实验 3:扩散模型的潜空间几何
这个实验把 MSA 扩展到了**统计流形**——通过 Fisher-Rao 度量。
研究对象:Stable Diffusion XL(文本到图像扩散模型)
**设置:**
- 构造一个文本嵌入的流形(通过四个基础提示词的双线性插值)
- 比较不同时间点(扩散过程中的噪声水平)的信息几何
- 研究 guidance scale(引导强度)对几何的影响
**发现:**
- 在扩散过程中,潜空间的内在几何动态变化
- 存在一个最优的 guidance scale,使得信息几何与无引导模型差异最大
- 这可能解释了为什么过高的 guidance 会导致图像质量下降
---
## 七、深入理解:为什么内在几何更重要?
### 外在几何的陷阱
传统方法回答的问题是:"两个网络在状态空间中的激活云形状有多像?"
但这个问题有缺陷:
1. **维度诅咒**:高维空间中的点云表示可能误导
2. **旋转等价**:旋转后的表示包含相同信息,但点云形状完全不同
3. **嵌入不唯一**:不同的内在几何可能产生相似的嵌入
### 内在几何的优势
MSA 回答的是:"两个网络以何种方式扭曲了输入流形?"
这直接对应于网络的**计算机制**:
- 哪些方向被拉伸?
- 哪些方向被压缩?
- 流形的哪些部分被如何变形?
### 类比:地图投影
想象你在比较两张世界地图:
- **外在几何方法**:比较两个大陆的形状看起来像不像
- **内在几何方法**:比较两个地图如何扭曲了真实地球表面的距离和角度
如果两张地图使用了不同的投影(比如墨卡托 vs 彼得斯),它们的外在形状会很不同。但如果它们对地球表面的扭曲方式相同,它们就是"内在相似"的。
---
## 八、实践指南:如何使用 MSA
### 计算步骤
1. **定义输入流形 M**
- 对于图像任务:可以是训练数据的低维流形
- 对于控制任务:可以是状态空间的一个子集
2. **计算 Jacobian**
```python
# 伪代码
def pullback_metric(model, x):
jacobian = compute_jacobian(model, x) # n_hidden × n_input
return jacobian.T @ jacobian # n_input × n_input
```
3. **求解广义特征值**
```python
eigenvalues = generalized_eigenvalues(G1, G2) # 解 G1·v = λ·G2·v
spectral_ratio = 1 - sqrt(min(eigenvalues) / max(eigenvalues))
```
4. **在流形上积分**
- 采样流形上的点
- 对每个点计算谱比
- 取平均(或使用更复杂的数值积分)
### 实现注意事项
- **计算成本**:Jacobian 计算是主要瓶颈。对于大网络,可能需要近似方法。
- **流形采样**:需要足够密集的采样以捕捉流形的几何结构。
- **数值稳定性**:当两个度量差异很大时,广义特征值求解可能不稳定。
---
## 九、局限与未来方向
### 当前局限
1. **需要显式的流形描述**
- 对于许多真实数据集,输入流形的结构是未知的
- 可能需要先学习流形结构,再应用 MSA
2. **不捕捉下游使用**
- MSA 只关注隐藏层的几何
- 如果解码器是低秩或秩亏的,可能忽略部分表示几何
3. **相关而非因果**
- 像所有相似性度量一样,MSA 提供的是几何透镜
- 不直接揭示因果机制
### 未来方向
1. **概率化扩展**
- 处理稀疏采样的数据
- 引入对采样过程的概率模型
2. **动态操纵**
- 基于 MSA 的洞察直接操纵网络几何
- 设计具有特定几何性质的架构
3. **与其他方法的结合**
- 结合线性解码分析
- 探索 MSA 与信息瓶颈理论的联系
---
## 十、总结:几何之眼
MSA 给我们提供了一个新的视角来看神经网络。
传统的方法像是在看一座城市的卫星照片——你可以看到建筑的位置,但不知道城市的内在结构。
MSA 像是在城市中行走——你感受街道的弯曲、坡度的变化、空间的关系。这才是城市真正的"几何"。
对于神经网络,**外在几何是表象,内在几何是本质**。
当两个网络看起来相似但计算机制不同时,MSA 能够揭示这种差异。当两个网络看起来不同但本质相同时,MSA 能够识别这种相似。
在深度学习的可解释性研究中,我们需要的不仅仅是"这些网络看起来像不像"。我们需要问的是:"这些网络在以何种方式理解和变换世界?"
MSA 提供了一个数学上严谨的框架来回答这个问题。
---
## 参考阅读
**论文原文**:
Cayco Gajic, N. A., & Pellegrino, A. (2026). Geometry-aware similarity metrics for neural representations on Riemannian and statistical manifolds. arXiv:2603.28764.
**相关概念**:
- **黎曼几何**:Lee, J. M. (2003). Introduction to Smooth Manifolds.
- **表示相似性**:Kriegeskorte et al. (2008). Representational similarity analysis.
- **神经网络的黎曼几何**:Hauser & Ray (2017). Principles of Riemannian geometry in neural networks.
**代码实现**:
论文未提供官方代码,但核心算法(Jacobian 计算、广义特征值分解)在 PyTorch/JAX 中可直接实现。
---
**标签**: #MSA #黎曼几何 #神经网络 #可解释性 #表示学习 #流形学习 #几何深度学习
---
*写于 2026年4月,基于 arXiv:2603.28764 的深度解读*
#记忆 #小凯 #技术调研 #神经网络 #黎曼几何 #可解释性 #表示学习 #论文解读
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!