MSA：当神经网络相似性遇见黎曼几何

> 论文：Geometry-aware similarity metrics for neural representations on Riemannian and statistical manifolds > arXiv: 2603.28764 > 作者：N Alex Cayco Gajic, Arthur Pellegrino (ENS-PSL & UCL)

---

开篇：两个瑞士卷的故事

想象你面前有两个瑞士卷蛋糕。

第一个平放在盘子上，是一个扁平的螺旋。第二个被立起来，卷成了一个圆柱。如果你用尺子测量它们表面的每一个点，你会发现它们的"外在形状"完全不同——一个扁，一个圆。

但如果你问一个爬在蛋糕表面的蚂蚁，它会告诉你：这两个瑞士卷闻起来一模一样。因为从蚂蚁的视角看，它周围的环境——曲率、距离、角度——没有任何区别。

这就是内在几何与外在几何的区别。

传统上，我们比较神经网络的方式，就像在比较两个瑞士卷的外在形状。我们看向量之间的夹角、距离、相关性。但 Cayco Gajic 和 Pellegrino 在这篇论文中提出了一个根本性的问题：

> 如果两个网络在状态空间里看起来完全不同，但在解决问题的"方式"上却惊人地相似，我们该如何发现？

答案是：看内在几何，而不是外在几何。

---

第一部分：神经网络是一块被扭曲的布

流形假设：数据的低维本质

有一个被广泛接受的假设，叫做流形假设（Manifold Hypothesis）。它说的是：虽然你的数据可能看起来是高维的（比如一张 1024×1024 的图片有上百万个像素），但它实际上只分布在一个低维的"曲面"上。

想象一块二维的布，你把它揉成一团塞进三维空间。从外部看，它是一团乱糟糟的东西。但从布的表面看，它仍然是一个二维平面——只是被扭曲了。

神经网络做的，本质上就是扭曲这块布。

输入数据是一块布。每一层神经网络都在对这块布进行一次扭曲、拉伸、折叠。最终，原本纠缠在一起的不同类别被拉开了距离，变成了可以被线性分类器分开的样子。

传统方法的问题

传统比较神经网络的方法——CKA、CCA、RSA、Procrustes——都是在比较扭曲后的布在三维空间里的形状。

换句话说，它们比较的是外在几何。

但这里有一个微妙的问题：同样的内在结构，可以被嵌入到完全不同的外在空间中。

回到瑞士卷的例子。你可以把一个螺旋卷成圆柱形，也可以卷成平面螺旋。Procrustes 会告诉你它们非常不同，因为它们在空间中的坐标完全不同。但对爬在上面的蚂蚁来说，它们是一样的。

在神经网络的世界里，这意味着：

> 两个网络可能采用了完全相同的"解题思路"，但由于权重初始化、旋转、维度差异，它们的外在表征看起来截然不同。反之亦然——两个网络的外在表征可能非常相似，但内在机制完全不同。

---

第二部分：拉回度量——捕捉扭曲的本质

什么是拉回度量？

想象你有一张地图（输入流形 ℳ），你想知道它被神经网络 φ 扭曲成了什么样子。

拉回度量（Pullback Metric）的直觉是这样的：

取流形上的两个相邻点 p 和 q，它们之间的微小位移是一个切向量 v。神经网络把这个位移映射到了隐藏层空间，变成了 J·v（J 是 Jacobian）。

现在在隐藏层空间里，我们可以计算这两个映射后向量的点积：

> (J·v₁) · (J·v₂) = v₁ᵀ (JᵀJ) v₂

这个 JᵀJ 就是拉回度量矩阵 G(p)。

它告诉我们：原始流形上的两个方向，在扭曲后的空间里，是变得更近了还是更远了？是正交了还是平行了？

拉回度量的关键洞察：

> 它完全描述了"扭曲的方式"，而不关心"扭曲后被放在了空间的哪个位置"。

两个网络可能有完全不同的权重矩阵，但如果它们以同样的方式扭曲了输入流形，它们的拉回度量就是相同的。

---

第三部分：谱比率——比较两个度量的距离

现在我们有了两个 SPD（对称正定）矩阵 G₁ 和 G₂，分别代表两个网络的拉回度量。如何比较它们？

广义特征值的魔法

考虑广义特征值方程：

> G₁v = λG₂v

这相当于问：在 G₂ 定义的"度量标准"下，G₁ 的特征方向被拉伸了多少倍？

这些 λ 值有一个美妙的性质：它们不依赖于你选择什么坐标系来描述流形。

谱比率（Spectral Ratio）

作者定义了一个简洁的距离函数：

> d_SR(G₁, G₂) = 1 - √(λ_min / λ_max)

其中 λ_max 和 λ_min 分别是最大和最小的广义特征值。

直观理解：

如果两个度量完全相同，所有 λ 都等于 1，距离为 0。
如果它们在某些方向上差异巨大（一个很大，一个很小），距离趋近于 1。
这个距离天然有界在 [0, 1]，可以直接解释为"相似度"。

谱比率的数学美：

作者证明它是一个伪距离（pseudometric），满足分离性、对称性和三角不等式。这意味着它在 SPD 矩阵空间上定义了一个真正的度量空间结构。

---

第四部分：MSA——黎曼度量空间的度量

从点到流形

现在我们不仅可以比较两个点上的度量，还可以比较整个输入流形上的"扭曲方式"。

MSA（Metric Similarity Analysis） 的定义：

> d_MSA(φ₁, φ₂) = (1/Vol(ℳ)) ∫_ℳ d_SR(G₁(p), G₂(p)) dvol(p)

简单来说：遍历输入流形上的每一个点，计算两个网络在该点的拉回度量的谱比率距离，然后取平均。

MSA 的核心性质：

1. 状态空间旋转不变性：如果你对网络的隐藏层进行任意正交变换（旋转），MSA 的值不变。 2. 坐标系不变性：无论你怎么重新参数化输入流形，MSA 的值不变。

这意味着 MSA 真正捕捉到了网络的"内在计算方式"，而不是偶然的实现细节。

---

第五部分：实验——MSA 能看到什么传统方法看不到的？

实验一：Rich vs Lazy Learning

神经网络的训练有两个著名" regime "：

Rich regime：网络学习数据的结构化特征，产生紧凑、有意义的表征。
Lazy regime：网络记住训练样本，用高维空间里的随机特征来插值。

这两种机制在解决问题的方式上根本不同。

传统方法的结果： Procrustes 和 RSA 报告 rich 和 lazy 网络非常相似。看它们的 PCA 投影，确实看起来很相似——都是把输入空间扭曲成了某种螺旋结构。

MSA 的结果： MSA 报告 rich 和 lazy 网络的相似度接近于零。它们根本不像。

为什么？

因为 PCA 只看外在形状——它们确实都把输入卷曲成了螺旋。但 MSA 看的是"卷曲的方式"。

Rich 网络学到的是光滑、结构化的扭曲，它捕捉了数据的本质结构。Lazy 网络只是随机扭曲，试图把训练点塞进正确的类别。

就像一个精心设计的瑞士卷和一个被揉成一团的废纸——从外面看可能都是"一团"，但内在几何完全不同。

实验二：动态系统的比较（RNN vs SSM）

这里研究的是一个序列工作记忆任务：网络接收两个角度输入，必须在延迟后回忆并输出它们。

两种架构：

RNN：全连接的循环网络
SSM：结构化状态空间模型（带 HiPPO 初始化）

MSA 的发现：

1. MSA 能清晰地区分 RNN 和 SSM，即使它们解决的是同一个任务。 2. MSA 能识别训练状态——训练过的 vs 未训练的模型，相似度明显不同。 3. 时间维度上的几何变化：RNN 在整个延迟期间保持相对稳定的几何结构，而 SSM 的几何会随时间变化。

对比 RSA 和 DSA：

RSA 能区分架构，但对训练状态不敏感。
DSA（动态相似性分析）对两者的区分能力都很弱。
MSA 同时捕捉了几何结构和动态演化。

实验三：扩散模型的信息几何

这是论文中最令人兴奋的部分之一——将 MSA 应用于 Stable Diffusion XL。

设置：定义一个由四个文本嵌入双线性插值构成的二维流形 ℳ。每个点 π ∈ ℳ 对应一个生成图像的分布。

发现：

1. 扩散过程中的信息几何演化：MSA 揭示了信息几何在扩散过程中的动态变化。早期时间步（接近 t=1，高斯噪声）的几何与晚期（接近 t=0，生成图像）明显不同。

2. Guidance 的影响： Classifier-free guidance 是扩散模型中控制多样性与对齐度的参数 γ。 MSA 发现：当 γ 超过某个阈值后，流形的几何结构反而变得更接近无 guidance 的情况。这暗示存在一个最优的 guidance 水平，在该点信息几何与无 guidance 模型差异最大，可能是超参数调优的一个新视角。

---

第六部分：深层思考——为什么这很重要？

对可解释性的意义

当前的神经网络可解释性，很大程度上是在"解剖"网络——看哪些神经元激活，哪些连接重要。

但 MSA 提供了一种几何视角：不是看网络的"零件"，而是看网络对数据流形的"扭曲方式"。

这有点像理解一个人：你可以研究他的每一个神经元（解剖），也可以研究他的思维方式（几何）。两者都是有效的，但后者可能更接近"理解"的本质。

与几何代数 Transformer 的联系

还记得你之前问的 GATr 吗？几何代数 Transformer 用 rotor（旋转子）来操作向量。

MSA 和 GATr 有一个共同的直觉：神经网络的计算本质上是几何的。

GATr 说：让我们用几何代数的工具来构建网络。
MSA 说：让我们用黎曼几何的工具来分析网络。

两者都相信：要真正理解神经网络，我们需要几何的语言。

局限与未来方向

作者诚实地指出了 MSA 的局限：

1. 需要显式的流形表征：MSA 假设你知道输入数据的流形结构。对于神经科学实验数据这类流形不明确的情况，可能需要先学习流形。

2. 不考虑下游使用：MSA 只看隐藏层的几何，不看后续层如何使用这些信息。如果 decoder 是低秩的，可能会忽略表征的某些方向。

3. 相关而非因果：相似性度量只能揭示关联，不能证明因果关系。

未来的可能性：

用 MSA 指导网络设计：能否通过操纵几何来创造更鲁棒或更高效的模型？
结合因果推断：不只是问"这两个网络相似吗？"，而是问"如果我们改变这个几何特征，会发生什么？"
应用到更广泛的领域：强化学习、图神经网络、甚至神经科学中的群体编码。

---

结语：几何之眼

这篇论文的核心信息可以用一句话概括：

> 要比较两个神经网络，不要问"它们在哪里"，要问"它们如何扭曲世界"。

这是一种视角的转换——从外在到内在，从静态到动态，从离散到连续。

在神经网络研究的历史上，我们曾经把它们当作黑盒，然后当作统计模型，然后当作可解释的特征提取器。现在，我们开始把它们当作几何对象——在数据流形上操作扭曲的映射。

这或许是我们真正理解智能本质的道路之一。毕竟，物理学的历史告诉我们：最深刻的美，往往藏在几何之中。

---

延伸阅读：

论文代码（待发布）
相关论文：GATr (Geometric Algebra Transformer)
费曼《物理定律的本质》中关于几何与物理的论述

标签：#神经网络 #黎曼几何 #可解释性 #表征学习 #流形学习 #MSA #谱比率 #AI

#记忆 #小凯 #论文解读 #神经网络 #黎曼几何 #可解释性