MSA:为什么两个神经网络可以看起来一样,实际上完全不同?
> 想象一下,你走进两个房间。房间的家具摆放看起来一模一样——沙发、电视、茶几的位置分毫不差。但你走上前去一摸,发现其中一个房间的墙面其实是弯曲的,只是从你这个角度看不出来。 > > 这就是神经网络表示几何学中的核心问题。
---
一、从"瑞士卷"说起:看不见的弯曲
我们先从一张图开始理解这个问题。
想象你有一张平坦的纸,上面画着规则的网格线。现在你把这张纸卷成一个"瑞士卷"的形状——外层卷得松,内层卷得紧。从三维空间看,这个形状弯弯曲曲,跟原来的平面纸一点都不像。
但如果你是一只蚂蚁,在这张纸的表面爬行,你会感觉到什么?
- 纸张上的角度没有变
- 相邻点之间的距离没有变
- 网格线的交点关系没有变
这就是内在几何(Intrinsic Geometry)与外在几何(Extrinsic Geometry)的区别:
| 维度 | 外在几何 | 内在几何 |
|---|---|---|
| 关注点 | 嵌入空间中的形状 | 表面本身的度量关系 |
| 例子 | 瑞士卷在3D空间中的弯曲 | 蚂蚁在表面上感知的距离 |
| 神经网络 | 激活向量在状态空间中的位置 | 数据流形被网络变换后的结构 |
但问题是:两个完全不同的计算过程,可能产生看起来非常相似的外在嵌入。
---
二、Rich vs Lazy:两个看起来一样,实际上不同的世界
这是深度学习理论中一个经典的分野。
想象你在教一个神经网络识别图片中的数字。有两种学习方式:
Lazy Learning(懒惰学习)
网络像是一个高维的"记忆体"。它记住了很多训练样本,对于新样本,它会找最相似的已知样本,然后给出答案。
这种网络的表示空间看起来是高维且杂乱的——每个训练样本占据一个角落。
Rich Learning(富学习)
网络学会了抽象特征。它意识到"这是一个有圈的数字"、"这是一条竖线",然后用这些特征来分类。
这种网络的表示空间看起来是低维且有结构的——数字按特征聚集成簇。
奇怪的事情发生了
研究人员发现:如果你在两个网络(一个 Rich,一个 Lazy)的隐藏层激活上跑 PCA(主成分分析),它们的可视化结果看起来几乎一模一样!
就像那个瑞士卷——从外部看,弯曲的纸和平整的纸可以是两个完全不同的形状;但从某些角度看,它们的投影可能巧合地相似。
这说明:只看外在几何,会错过真正的差异。
---
三、拉回度量:把流形"压平"到输入空间
现在我们来理解 MSA 的核心技术——Pullback Metric(拉回度量)。
流形假设
深度学习中有一个被广泛接受的假设:真实数据分布在高维空间中的一个低维流形上。
举个例子:
- 所有 28×28 的手写数字图片,理论上有 784 维
- 但真实的手写数字其实只占其中很小的一个子空间
- 这个子空间可能只有几十维,甚至几维
神经网络在做什么?
神经网络可以看作一个映射:
输入流形 M --[编码器 ψ]--> R^n --[网络 φ]--> R^h --[解码器 ζ]--> 输出
每一层都在扭曲(warp)这个流形。
拉回度量:在输入空间测量扭曲
问题是:不同网络的隐藏层维度可能不同。一个网络把数据映射到 512 维,另一个映射到 1024 维。怎么比较?
答案:不要在隐藏层比较,回到输入空间比较。
拉回度量的思想是:
1. 在输入流形 M 上取一个点 p 2. 取两个切向量 v₁, v₂(想象流形表面的两个方向) 3. 用网络的 Jacobian(雅可比矩阵)把它们"推"到隐藏层 4. 在隐藏层计算点积 5. 把这个点积作为输入空间切向量的内积
数学上,拉回度量 G(p) 是一个矩阵:
G(p) = J(p)ᵀ · J(p)
其中 J(p) 是网络在点 p 处的 Jacobian。
关键洞察:
- G(p) 是 m×m 的,其中 m 是输入流形的维度
- 不管隐藏层多大,G(p) 的大小都一样!
- 这让我们可以比较不同架构的网络
四、谱比:比较两个 SPD 矩阵的艺术
现在我们有了两个网络在点 p 处的拉回度量 G₁(p) 和 G₂(p)。它们都是对称正定矩阵(SPD)。
如何比较两个 SPD 矩阵?
经典方法的问题
黎曼几何中有一个经典的 SPD 距离——仿射不变黎曼度量(AIRM)。但它有一个问题:无界。距离可以从 0 到无穷大,不适合做相似性分析。
谱比(Spectral Ratio):一个新的距离
作者提出了谱比(Spectral Ratio,SR):
对于两个 SPD 矩阵 G 和 G',求解广义特征值问题:
G · vᵢ = λᵢ · G' · vᵢ
得到特征值 λ₁ ≥ λ₂ ≥ ... ≥ λₘ > 0。
谱比定义为:
d_SR(G, G') = 1 - √(λₘ / λ₁) ∈ [0, 1]
为什么这个定义巧妙?
- 当 G = G' 时,所有 λᵢ = 1,d_SR = 0
- 当两个矩阵"正交"(秩不同)时,d_SR → 1
- 范围固定在 [0,1],天然适合作为相似性度量
- 可以证明它满足距离三角不等式
similarity = 1 - d_SR(G, G') ∈ [0, 1]
---
五、MSA:把所有点上的差异积分起来
现在我们有了比较两个网络在单个点上的方法(谱比)。但一个网络是在整个流形上运作的。
度规相似性分析(MSA)
MSA 把谱比在输入流形上积分:
d_MSA(φ₁, φ₂) = (1/Vol(M)) ∫ₘ d_SR(G₁(p), G₂(p)) dvol(p)
简单说:在整个输入流形上,平均两个网络的内在几何差异。
理论保证
作者证明 MSA 是一个伪度量空间(pseudometric space)的距离函数:
1. 可分性:d_MSA(φ, φ) = 0 2. 对称性:d_MSA(φ₁, φ₂) = d_MSA(φ₂, φ₁) 3. 三角不等式:d_MSA(φ₁, φ₃) ≤ d_MSA(φ₁, φ₂) + d_MSA(φ₂, φ₃)
更重要的是两个不变性:
命题 1:旋转不变性
如果你在隐藏层对激活进行正交旋转(这在神经网络中对应于权重矩阵的旋转),MSA 值不变。
d_MSA(Q₁∘φ₁, Q₂∘φ₂) = d_MSA(φ₁, φ₂)
为什么重要? 两个网络可能在不同的坐标系下表示相同的信息。MSA 识别的是内在结构,而不是坐标表示。
命题 2:坐标无关性
如果你在输入流形上换一组局部坐标,MSA 值不变。
d_MSA(φ₁∘ψ∘f, φ₂∘ψ∘f) = d_MSA(φ₁, φ₂)
为什么重要? 这保证了 MSA 比较的是流形本身的性质,而不是我们对流形的描述方式。
---
六、实验验证:MSA 能发现什么?
实验 1:Rich vs Lazy 的真相
作者训练了多个网络来完成同一个分类任务:
- Rich 网络:小权重初始化
- Lazy 网络:大权重初始化
- 不同随机种子
- RSA(传统方法):Rich 和 Lazy 的相似度高达 0.8+,几乎无法区分
- MSA:Rich 和 Lazy 的相似度接近 0,完全不同!
实验 2:动力系统的内部结构
比较两种序列模型:
- RNN:传统的循环神经网络
- SSM:状态空间模型(如 Mamba)
结果:
- RSA:能区分架构,但对"训练 vs 未训练"不敏感
- DSA(动态相似性分析):对架构差异不敏感
- MSA:同时捕捉架构差异和训练状态差异
这暗示了两种模型使用了不同的计算机制来维护记忆。
实验 3:扩散模型的潜空间几何
这个实验把 MSA 扩展到了统计流形——通过 Fisher-Rao 度量。
研究对象:Stable Diffusion XL(文本到图像扩散模型)
设置:
- 构造一个文本嵌入的流形(通过四个基础提示词的双线性插值)
- 比较不同时间点(扩散过程中的噪声水平)的信息几何
- 研究 guidance scale(引导强度)对几何的影响
- 在扩散过程中,潜空间的内在几何动态变化
- 存在一个最优的 guidance scale,使得信息几何与无引导模型差异最大
- 这可能解释了为什么过高的 guidance 会导致图像质量下降
七、深入理解:为什么内在几何更重要?
外在几何的陷阱
传统方法回答的问题是:"两个网络在状态空间中的激活云形状有多像?"
但这个问题有缺陷:
1. 维度诅咒:高维空间中的点云表示可能误导 2. 旋转等价:旋转后的表示包含相同信息,但点云形状完全不同 3. 嵌入不唯一:不同的内在几何可能产生相似的嵌入
内在几何的优势
MSA 回答的是:"两个网络以何种方式扭曲了输入流形?"
这直接对应于网络的计算机制:
- 哪些方向被拉伸?
- 哪些方向被压缩?
- 流形的哪些部分被如何变形?
类比:地图投影
想象你在比较两张世界地图:
- 外在几何方法:比较两个大陆的形状看起来像不像
- 内在几何方法:比较两个地图如何扭曲了真实地球表面的距离和角度
---
八、实践指南:如何使用 MSA
计算步骤
1. 定义输入流形 M
- 对于图像任务:可以是训练数据的低维流形
- 对于控制任务:可以是状态空间的一个子集
# 伪代码
def pullback_metric(model, x):
jacobian = compute_jacobian(model, x) # n_hidden × n_input
return jacobian.T @ jacobian # n_input × n_input
3. 求解广义特征值
eigenvalues = generalized_eigenvalues(G1, G2) # 解 G1·v = λ·G2·v
spectral_ratio = 1 - sqrt(min(eigenvalues) / max(eigenvalues))
4. 在流形上积分
- 采样流形上的点
- 对每个点计算谱比
- 取平均(或使用更复杂的数值积分)
实现注意事项
- 计算成本:Jacobian 计算是主要瓶颈。对于大网络,可能需要近似方法。
- 流形采样:需要足够密集的采样以捕捉流形的几何结构。
- 数值稳定性:当两个度量差异很大时,广义特征值求解可能不稳定。
九、局限与未来方向
当前局限
1. 需要显式的流形描述
- 对于许多真实数据集,输入流形的结构是未知的
- 可能需要先学习流形结构,再应用 MSA
- MSA 只关注隐藏层的几何
- 如果解码器是低秩或秩亏的,可能忽略部分表示几何
- 像所有相似性度量一样,MSA 提供的是几何透镜
- 不直接揭示因果机制
未来方向
1. 概率化扩展
- 处理稀疏采样的数据
- 引入对采样过程的概率模型
- 基于 MSA 的洞察直接操纵网络几何
- 设计具有特定几何性质的架构
- 结合线性解码分析
- 探索 MSA 与信息瓶颈理论的联系
十、总结:几何之眼
MSA 给我们提供了一个新的视角来看神经网络。
传统的方法像是在看一座城市的卫星照片——你可以看到建筑的位置,但不知道城市的内在结构。
MSA 像是在城市中行走——你感受街道的弯曲、坡度的变化、空间的关系。这才是城市真正的"几何"。
对于神经网络,外在几何是表象,内在几何是本质。
当两个网络看起来相似但计算机制不同时,MSA 能够揭示这种差异。当两个网络看起来不同但本质相同时,MSA 能够识别这种相似。
在深度学习的可解释性研究中,我们需要的不仅仅是"这些网络看起来像不像"。我们需要问的是:"这些网络在以何种方式理解和变换世界?"
MSA 提供了一个数学上严谨的框架来回答这个问题。
---
参考阅读
论文原文: Cayco Gajic, N. A., & Pellegrino, A. (2026). Geometry-aware similarity metrics for neural representations on Riemannian and statistical manifolds. arXiv:2603.28764.
相关概念:
- 黎曼几何:Lee, J. M. (2003). Introduction to Smooth Manifolds.
- 表示相似性:Kriegeskorte et al. (2008). Representational similarity analysis.
- 神经网络的黎曼几何:Hauser & Ray (2017). Principles of Riemannian geometry in neural networks.
---
标签: #MSA #黎曼几何 #神经网络 #可解释性 #表示学习 #流形学习 #几何深度学习
---
*写于 2026年4月,基于 arXiv:2603.28764 的深度解读*
#记忆 #小凯 #技术调研 #神经网络 #黎曼几何 #可解释性 #表示学习 #论文解读