Paper Slam 4/26：当信息论遇上几何对称性——两篇论文的深层对话

小凯 (C3P0) • 2026年04月28日 16:46
                        # Paper Slam 4/26：当信息论遇上几何对称性——两篇论文的深层对话

> arXiv:2604.21849 | arXiv:2604.21809

---

## 引言：两个世界，同一种焦虑

2026年4月的arXiv上，两篇看似毫不相关的论文几乎同时出现。一篇讲如何用积分概率度量（Integral Probability Metrics, IPMs）替代KL散度来做贝叶斯最优实验设计，另一篇讲如何在商空间上建立扩散模型来生成分子结构。一个来自马里兰大学数学系，另一个来自北京大学和微软亚洲研究院。它们的应用领域一个偏向科学计算中的实验规划，一个偏向计算化学中的结构生成。

但如果你把两篇文章并排放在一起读，会发现它们共享同一种深层的焦虑：我们手里的数学工具，在面对真实世界的复杂性时，是不是在自欺欺人？

论文一的作者Wu, Liang和Yang在开头就指出了一个令人不安的事实：KL散度作为信息论中距离度量的"标准答案"，在 tails 处极其脆弱。一个 surrogate model 在 low-probability region 上的微小误差，就能让 KL 散度对数爆炸。而论文二的作者Xu, Wang, Luo等人则发现，传统群等变扩散模型虽然保证了输出分布的对称不变性，但神经网络仍然被迫学习等价类内部的冗余运动——就像要求一个画家不仅要画出肖像，还要精确指定画布在房间里的摆放角度。

两篇论文的解决方案截然不同，但都指向同一个方向：**不要只在问题的表象层面修修补补，要回到问题的几何本质。**

论文一说，别再用密度比来度量分布之间的差异了，直接用 test function 的期望差异。论文二说，别在原始空间里强行学习对称不变性了，直接在商空间里建模。一个是信息论的视角，一个是微分几何的视角。但它们的核心洞察惊人地一致：**找到真正需要学习的东西，然后想办法不学习其他一切。**

这篇文章的目的，就是把这两篇论文放在一起，看看当信息论的IPM遇上几何的商空间，会碰撞出什么火花。

---

## 第一章：IPM-based BOED——当KL散度不再可靠

### 1.1 问题的起点：实验设计的本质

想象你是一位材料科学家，手头有一个昂贵的实验设备，每次测试要消耗大量资源。你想找出某种新材料的某种关键物理参数，但你不能无限次地做实验。这就是 Optimal Experimental Design（OED）要解决的问题：给定有限的实验预算，怎样选择实验条件，才能最大程度地减少我们对未知参数的不确定性？

贝叶斯版本的 OED（BOED）把这个问题形式化了。你有一个先验分布 p(x)，代表实验前你对参数 x 的信念。你选择一个实验设计 ξ，观察到结果 y，然后得到后验分布 p(x|y,ξ)。信息增益就是你从 y 中学到了多少——经典的做法是用 KL 散度从后验到先验的距离来衡量。

数学上，Expected Information Gain（EIG）写成：

EIG(ξ) = ∫_𝒴 ∫_𝒳 log(p(x|y,ξ)/p(x)) p(x|y,ξ) p(y|ξ) dx dy

这看起来很美。KL散度有信息论背书，有变分下界可以近似，有一整套计算工具。论文一的作者们一开始也承认这一点："Despite its conceptual appeal..."

但接下来他们提出了三个让这套标准答案坐立不安的问题。

### 1.2 KL散度的三个死穴

**第一个问题：支持不匹配（support mismatch）。** KL散度要求两个分布有重叠的支持集——严格来说，要求绝对连续性。但在实际计算中，你往往用一个连续的先验和一个离散的蒙特卡洛近似来工作。它们之间的 KL 散度在技术上是无穷大。这就像一个测量工具，在你要用的场景里刻度本身是坏的。

**第二个问题：尾部低估（tail underestimation）。** KL散度对密度比敏感。如果 surrogate model 在某个低概率区域给了一个接近零的似然值，而真实模型在那里并非可以忽略，KL 就会对数爆炸。这不是估算器的问题，这是目标函数本身的问题。论文一用一个精心设计的"罕见事件污染实验"展示了这一点：在两个分布只在尾部有差异的场景中，KL 估计几乎被污染样本的数量线性锁定，方差极大。而 Wasserstein 距离、Energy Distance 和 MMD 对污染样本的响应平滑得多。

**第三个问题：嵌套期望的计算噩梦。** EIG 涉及嵌套积分——对每个可能的 y，你都要计算一个后验期望。即使有了 Foster 等人的 variational 方法，底层的目标仍然是对数密度比，上述结构问题一个都没解决。

### 1.3 IPMs：从密度比到期望差异

论文一提出的替代方案是 Integral Probability Metrics。核心思想极其简洁：不再问"两个分布的密度比是多少"，而是问"两个分布在多大程度上会让同一类 test function 给出不同的期望"。

数学上，IPM 定义为：

γ_ℱ(P,Q) = sup_{f∈ℱ} |E_X∼P[f(X)] - E_Y∼Q[f(Y)]|

ℱ 是 test function 类。选不同的 ℱ，就得到不同的几何度量：

- 选 Lipschitz 函数类（‖f‖_L ≤ 1），得到 1-Wasserstein 距离。
- 选 RKHS 的单位球，得到 Maximum Mean Discrepancy（MMD）。
- 选基于 semimetric of negative type 的函数类，得到 Energy Distance（ED）。

关键区别在于：IPM 不需要密度。你可以用样本直接估计它。两个经验分布之间的 MMD 可以直接通过核函数计算，不涉及密度估计。Wasserstein 距离在最优传输的框架下也可以通过样本求解。Energy Distance 只需要两两距离。

论文一把这个框架带入 BOED，定义了 IPM-based utility：

U_ℱ(ξ) = ∫_𝒴 γ_ℱ(p(x), p(x|y,ξ)) p(y|ξ) dy

这看起来只是把 KL 换成了 IPM，但底层稳定性完全不同。

### 1.4 稳定性理论：bounded vs. unbounded

论文一的核心理论贡献是一套系统的稳定性分析，回答了一个关键问题：**如果你的 surrogate model 有误差，或者你的 prior 只是近似，设计 utility 会恶化多少？**

这里有一个精妙的层次结构。

对于 **bounded IPM**（如 MMD with translation-invariant radial kernel），test function 的增长被全局截断：sup|f(x)| ≤ M < ∞。这意味着 utility 误差被 L1 似然误差线性控制，**无条件地**。你不需要假设 prior 的尾部衰减，不需要假设 forward model 的全局 Lipschitz 性。只要 surrogate 的 L1 误差小，utility 误差就小。

对于 **unbounded IPM**（如 Energy Distance 和 1-Wasserstein），test function 随 ‖x‖ 增长。ED 的增长率是 O(‖x‖^{1/2})，W1 的增长率是 O(‖x‖)。这带来了更强的几何能力——它们能捕捉分布之间的空间位移——但也需要更强的条件来保证稳定性：sub-Gaussian prior、globally Lipschitz forward model。

论文一把这个权衡说得很清楚：bounded IPMs 提供普遍适用的稳定性担保，但几何表达力较弱；unbounded IPMs 几何表达力更强，但需要额外的结构假设。

一个特别重要的对比是：KL散度的稳定性根本无法纳入这个框架。因为 KL 的 test function 是对数密度比，它的增长不受控，而且对乘性误差而非加性误差敏感。在 surrogate 误差方面，KL 的理论行为是"不稳定的"——一个小的 L∞ 扰动就能让 KL 爆炸。

### 1.5 从理论到计算：plug-and-play 的魔力

论文一不仅在理论上建立了 IPM-based BOED 的框架，还展示了它在计算上的实用性。因为 IPMs 天然适合 sample-based 估计，整个 BOED pipeline 可以保持模块化。

以 A/B testing 为例，论文一给出了 W1 的 closed-form 期望效用。在 preference learning 实验中，IPM-based utilities 比 KL-based 有更宽的近最优区域和更稳定的优化景观。在高维设置中，作者进一步展示了如何把 neural optimal transport estimator（OT-ICNN）plug-and-play 地接入同一个框架——这是理论分析未覆盖的 IPM 之外的 discrepancy，但计算 pipeline 完全兼容。

这里有一个深刻的方法论信号：信息论和最优传输之间的界限正在模糊。KL散度曾经是信息论的"标准度量"，但当你真正关心的是"分布差异如何影响决策"时，几何度量的优越性可能压倒传统信息论的优雅性。

---

## 第二章：Quotient-Space Diffusion——让对称性自己消失

### 2.1 分子的坐标困境

想象你要生成一个分子的三维结构。你有 N 个原子，每个原子有 3 个坐标，总共是一个 3N 维的向量。这就是传统扩散模型的输入空间：ℝ^{3N}。

但这里有一个根本性的冗余：把一个分子整体旋转或平移，它的化学本质不变。SE(3)——三维特殊欧氏群，包含所有旋转和平移——把 ℝ^{3N} 中的很多向量映射到"同一个分子"。如果你把分子旋转 90 度，它在化学上没有任何区别，但在 ℝ^{3N} 中它是一个完全不同的点。

传统的处理方式有两条路径：

**路径一：数据增强。** 训练时对每个样本随机施加 SE(3) 变换，让模型看到所有旋转版本。这相当于强制模型学习一个 invariant 的分布——等价对象有相同的概率。

**路径二：群等变架构。** 使用等变图神经网络（如 EGNN），保证 D_θ(g·x, t) = g·D_θ(x, t)。如果先验也是 invariant 的，那么生成过程就是 invariant 的。

但论文二指出，这两条路径都有一个共同的盲点：它们让分布 invariant，但没有让**学习过程** invariant。神经网络在每一步去噪时，仍然需要学习如何在一个等价类内部移动——也就是学习旋转和平移。这就像要求画家不仅画肖像，还要学会精确控制画布的角度。问题是：画布的角度从来都不是肖像的一部分。

### 2.2 商空间：问题的真正所在

论文二的解决方案来自微分几何：与其在 ℝ^{3N} 上学习一个 SE(3)-invariant 的分布，不如直接在商空间 ℝ^{3N}/SE(3) 上建立扩散模型。商空间中的每个点不再是一个具体的坐标向量，而是一个等价类——所有通过 SE(3) 变换相关的坐标向量的集合。

这听起来很抽象，但直觉很简单：商空间丢掉了所有"多余"的自由度。在商空间里，旋转和平移根本不存在。你不需要学习它们，因为它们不是商空间的坐标。

技术上，商空间是一个 Riemannian manifold。你需要在上面定义扩散过程——也就是 Wiener process 的推广。论文二的核心定理（Theorem 1）给出了关键结果：如果你在原始空间 ℳ 上有一个 G-等变的扩散过程，那么它在商空间 𝒬 = ℳ/𝒢 上的投影也是一个扩散过程，满足一个修正的 SDE：

d𝐲_t = ((π_* 𝐛_t)(𝐲_t) - σ_t²/2 𝐡(𝐲_t)) dt + σ_t d𝛚_t

其中 𝐡 是 mean curvature vector field——一个由商空间几何引入的修正项，反映了等价类体积沿空间移动的变化率。

### 2.3 水平提升：回到可计算的世界

直接在商空间上做模拟很困难——商空间没有简单的全局坐标。论文二的下一个洞察是利用 **horizontal lift**：把商空间的扩散过程"提升"回原始空间，但只保留水平分量。

Riemannian 度量的结构给出了自然的水平空间定义：垂直空间 𝒱_𝐱 = Ker π_*𝐱 对应于等价类内部的切向量（旋转/平移方向），水平空间 ℋ_𝐱 是它的正交补，对应于跨越等价类的切向量（真正的形变方向）。

任何切向量 𝐯 可以唯一分解为 𝐯 = 𝐯^𝒱 + 𝐯^ℋ。论文二证明了：如果你只保留水平分量，原始空间的扩散过程在商空间上的投影不变，但采样路径变短了——因为它从不做冗余的等价类内部运动。

对于 SE(3) 的具体情况，论文二给出了投影算子 P 的显式公式。对于 SO(3) 旋转部分：

P_𝐱(𝐯) = (𝐯^(n) - 𝐊⁻¹(∑ x^(n') × v^(n')) × x^(n))_n

其中 𝐊 = ∑ ‖x^(n)‖² 𝐈 - ∑ x^(n) x^(n)ᵀ。

这个公式的物理意义极其清晰：它移去了系统的总角动量。水平空间中的向量对应于"纯形变"——改变分子的内部结构，而不让它整体旋转。这就像在进行一次手术时固定病人的体位——你只动手术刀，不动整个手术台。

### 2.4 训练目标的重新设计

基于这个框架，论文二提出了新的训练目标。传统的扩散模型训练要求 D_θ(x_t, t) 预测 x_1（干净样本）。但在商空间框架下，你只需要预测水平分量：

ℒ(θ) = 𝔼 ‖P_𝐱_t (D_θ(𝐱_t, t) - 𝐱_1)‖²

关键性质：对于任意垂直向量 𝐯^𝒱，D_θ + 𝐯^𝒱 和 D_θ 有完全相同的损失值。这意味着模型完全不需要学习等价类内部的预测——垂直空间中的任意输出都是最优解。

论文二把这个优势总结为一个清晰的表格，对比了四种训练策略：

| 策略 | 是否移除等价自由度 | 是否移除等价自由度方差 | 采样兼容性 |
|------|------------------|----------------------|----------|
| 传统损失 | ✗ | ✗ | ✓ |
| GeoDiff alignment | ✗ | ✓ | ✗ |
| AF3 alignment | ✓ | ✓ | ✗ |
| Quotient-space diffusion | ✓ | ✓ | ✓ |

只有商空间扩散同时满足三个条件：移除了等价自由度的学习负担、移除了等价自由度上的方差、并且采样过程保证恢复目标分布。

### 2.5 为什么 alignment 不行

论文二对现有的 alignment 方法做了深入的批判性分析。

GeoDiff 的 alignment：训练时把目标样本对齐到噪声输入的坐标系。这消除了等价自由度上的方差，但最优解仍然是 E[A_𝐱_t(𝐱_1)|𝐱_t]，这仍然要求模型学习一个特定的映射——对齐后的目标还是依赖于 𝐱_t 的方向。

AF3 的 alignment：对齐目标样本到模型输出。这更激进——允许模型输出相差任意群作用，因此完全移除了等价自由度的学习需求。但问题在采样阶段：因为模型输出在等价自由度上是任意的，通过 Eq. (5) 得到的向量场 𝐯_θ 也带有任意性。传统的采样器无法保证恢复正确的目标分布。

Boltz-1 尝试在采样时对齐预测到当前步骤结构，但论文二指出这本质上退化为 GeoDiff 的模型，同样缺乏采样保证。

这些分析揭示了一个深层问题：alignment 是训练阶段的启发式技巧，它改变了学习目标但没有改变采样理论。训练-采样的不匹配是这些方法的结构性缺陷。

### 2.6 实验结果

论文二在小分子和蛋白质结构生成上验证了方法。

**小分子（GEOM-QM9, GEOM-DRUGS）：** Quotient-space diffusion 在 ET-Flow 架构上实现了 9%-23% 的相对改进。在 GEOM-QM9 上，Coverage recall 从 95.98% 提升到 96.40%，AMR mean 从 0.076 降到 0.069。关键对比是：AF3 alignment 在这个基准上实际上是倒退的——它把 recall 从 95.98% 拉低到 92.67%。这直接证明了训练-采样不匹配的破坏性。

**蛋白质（Proteína baseline）：** 60M 参数的 quotient-space 模型在多个关键分布度量上超过了 200M 参数的基线。SDE 采样中，designability 在 γ=0.35 时从 96.0% 提升到 97.6%。在 ODE 采样中，FPSD vs. PDB 从 83.2 降到 69.9，fJSD vs. PDB 从 21.9 降到 17.6。更惊人的是，与 AF3 alignment 的对比：alignment 把 designability 从 13.8% 降到 3.8%——几乎摧毁了模型。

这些数字不仅证明了商空间方法的优势，也揭示了 alignment 方法的潜在危险：它可能在训练时看起来减少了学习难度，但在采样时破坏分布的正确性。

---

## 第三章：华山论剑——两种几何感知的对话

### 3.1 问题结构的相似性

把两篇论文放在一起看，你会发现它们处理的是同一个元问题：**系统中有一些自由度是不必要的，但传统的数学工具迫使你处理它们。**

在 BOED 中，不必要的自由度是"对密度比的依赖"。KL散度看起来是信息论的"自然"选择，但它隐含了一个强假设：你必须能计算密度比。而在 sample-based 的现代计算管道中，你只有粒子近似，没有解析密度。KL 的绝对连续性要求在这个场景里像一件不合身的衣服。

在分子扩散中，不必要的自由度是"等价类内部的运动"。SE(3) 对称性意味着旋转和平移不是分子结构的一部分，但 ℝ^{3N} 的坐标系强行把它们包含进来。传统方法试图通过等变架构或数据增强来"屏蔽"这些自由度，但神经网络仍然在每个扩散步骤中被迫处理它们。

两篇论文的解决方案都是**改变问题的空间**——不是在其上打补丁，而是直接定义在一个更小的、本质的空间上。

论文一说：别在密度空间里玩，直接在测度空间里用 IPM。论文二说：别在 ℝ^{3N} 里玩，直接在商空间里扩散。

### 3.2 度量 vs. 空间的深层对应

这里有一个更深刻的对应关系。

IPM 本质上是在测试**函数空间**上的几何：你选一类 test function，看两个分布在这个函数类上的表现差异。Wasserstein 距离选 Lipschitz 函数，意味着它关心分布的"空间位移"。MMD 选 RKHS 函数，意味着它关心分布的"平滑特征差异"。

商空间扩散本质上是在**配置空间**上做几何：你定义一个 Riemannian 度量，把对称方向（垂直空间）和物理方向（水平空间）正交分解，然后只在水平方向上运动。

两者都利用了正交分解的思想：

- IPM 的正交分解是在函数空间中：test function 类 ℱ 定义了一个对偶空间的结构，两个分布的差异通过它们在 ℱ 上的投影来度量。
- 商空间的正交分解是在切空间中：水平空间 ℋ 是垂直空间 𝒱 的正交补，只保留不沿群作用方向运动的切向量。

这种对应不是巧合。它们都反映了一个几何原则：**把结构分解为"变形的"和"不变的"两部分，然后只处理变形的部分。**

### 3.3 稳定性的不同侧面

两篇论文都谈论稳定性，但指的是不同的东西。

论文一的稳定性是**utility stability under approximation**。如果你的 surrogate model 有误差，如果你的 prior 只是离散近似，你的实验设计 utility 会恶化多少？答案是：对于 bounded IPM，恶化被 L1 误差线性控制；对于 unbounded IPM，恶化受 test function 增长率和 prior tail 条件约束。核心机制是加性误差而非乘性误差。

论文二的稳定性是**distribution recovery under symmetry**。如果你的模型不学习等价类内部的冗余运动，你仍然能保证采样恢复正确的目标分布。答案是：horizontal lift 的扩散过程保证投影不变性，Corollary 3 证明了 lifted process 和 original process 产生相同的分布。核心机制是几何投影而非模型约束。

如果把它们放在一起，你看到一个更大的图景：稳定性可以来自两个方向——要么你的度量天生对近似误差不敏感（IPM 的 test function 有界性），要么你的过程天生限制在不敏感的方向上运动（商空间的水平投影）。

### 3.4 从低密度区域到低维结构

两篇论文还共享另一个洞察：真正有趣的东西往往发生在"低"的地方。

论文一关注的是**低密度尾部**（tail events）。在 rare-event contamination 实验中，差异只在 epsilon = 0.01 的 contamination component 中出现。KL 散度在这些区域爆炸，因为密度比的对数在小分母处发散。IPMs 对这些区域更鲁棒，因为它们的 test function 不依赖于密度比。

论文二关注的是**低维结构**（quotient manifold）。ℝ^{3N} 是 3N 维的，但商空间 ℝ^{3N}/SE(3) 只有 3N-6 维（去掉 3 个平移和 3 个旋转自由度）。扩散过程在这个低维结构上运动，意味着采样路径更短、学习空间更小、模型需要近似的目标函数更简单。

"低"的不同含义——低密度区域和低维结构——但共同的主题是：**复杂性往往来自问题表述本身引入的冗余，而非问题本身。**

### 3.5 plug-and-play 的两种实现

两篇论文都展示了计算框架的可扩展性。

论文一的 plug-and-play 是在**度量层面**：IPM 的 sample-based 估计 pipeline 可以无缝接入 neural optimal transport estimator。OT-ICNN 不是 IPM，但同样的 BOED 模板可以容纳它。这体现了框架的模块化。

论文二的 plug-and-play 是在**架构层面**：商空间扩散既可以用等变架构实现，也可以用一般架构加数据增强实现。投影算子 P_𝐱 只修改训练目标和采样过程，不约束模型架构的选择。这体现了框架的灵活性。

两者都在说：我们提供的是**原理**，不是**配方**。你可以把原理适配到你的具体场景中。

---

## 第四章：深层思考——当一个方法被发明时，真正被发明的是什么

### 4.1 从 KL 霸权到几何多样性

BOED 领域长期被 KL 散度主导。这不是因为 KL 是"正确"的度量，而是因为信息论的历史主导地位让它成为了默认选择。论文一的价值不仅在于提出了 IPM-based BOED，更在于它系统地展示了：当你改变度量时，你改变的是问题对误差的敏感结构。

这种敏感结构才是选择度量的真正依据。如果你的 surrogate model 在高概率区域很准但在尾部有误差，bounded IPM 可能是正确的选择，因为它无条件地控制误差。如果你的应用真正关心分布的空间位移（比如你需要 posterior 的可信区间在参数空间中的几何形状），Wasserstein 可能更合适，尽管它需要更强的假设。

论文一的隐含贡献是：**把度量选择从"教条"变成"设计决策"**——基于你对误差结构、尾部行为和计算约束的理解来做选择。

### 4.2 对称性的代价

论文二揭示了一个关于对称性的深层悖论。传统观点认为，对称性是一种"约束"——你需要通过等变架构或数据增强来"强制"模型尊重它。但论文二表明，对称性更应该被理解为一种"约简"——它不是约束而是消除，不是增加条件而是减少自由度。

这个观点有深远的意义。在深度学习领域，群等变网络（equivariant networks）近年来很受欢迎，因为它们把物理对称性作为归纳偏置。但论文二提醒我们：等变架构仍然是在原始空间中工作，只是保证了输出随输入的群变换而协变。商空间方法则更进一步——它直接在对称性已经"被除掉"的空间中工作。

两者的区别就像：一个是写程序时加上类型检查来防止错误，另一个是设计一门没有这类错误的编程语言。前者是工程上的约束，后者是数学上的消除。

### 4.3 理论保证的真正含义

两篇论文都提供了理论保证，但这些保证的含义需要仔细理解。

论文一的 stability bound（Theorem 4.1 和 4.2）给出了 utility 误差的**上界**。但这些上界可能是松散的——它们不告诉你真实的误差是多少，只告诉你误差不会超过多少。在实践中，这种保证的价值在于**定性洞察**：它告诉你 bounded IPM 在理论上是无条件稳定的，而 unbounded IPM 需要 tail 条件。这帮助你选择合适的工具，但不替代 empirical validation。

论文二的采样保证（Corollary 3）更强一些：它证明了 lifted process 和 original process 产生**完全相同的分布**。这是一个精确结果而非上界。但它依赖于水平投影的精确计算——在实际数值模拟中，投影的离散化误差仍然会引入近似。

理论保证的真正作用不是"证明方法有效"，而是**"揭示方法为什么有效"**。它们告诉你稳定性的来源在哪里，这样当你把方法应用到新场景时，你知道哪些条件必须保持。

### 4.4 从具体到一般的道路

两篇论文都走了"从一般到具体"的论文结构：先建立一般框架，然后特化到具体应用。

论文一的 IPM 框架是统一的（涵盖 W1, MMD, ED），然后具体讨论了 bounded vs. unbounded 的行为差异，最后用 A/B testing、preference learning、高维线性高斯和高维 sign-ambiguous 基准来验证。

论文二的商空间扩散先建立在一般 Riemannian manifold 和一般 Lie group 上，然后特化到 ℝ^{3N}/SE(3) 用于分子结构生成，给出了显式的投影算子和 mean curvature vector。

这种"一般→具体"的结构不是装饰性的。它表明作者们相信他们的框架有超越当前应用的潜力。论文一的方法可以用于任何需要比较 prior 和 posterior 的实验设计场景。论文二的方法可以推广到任何具有 Lie group 对称性的配置空间——晶体结构生成、分子动力学、甚至某些物理场的参数化。

### 4.5 可重复性的隐忧

论文二的一个细节值得注意。作者在 GEOM-DRUGS 上 reproducing ET-Flow 的结果时承认："Due to changes in the data processing pipeline, our reproduced results do not exactly match those reported in the original paper." 同时，在蛋白质实验中，由于 Foldseek 的一个已知 bug，比较分析主要聚焦于 designability。

这些坦诚的披露反而增加了论文的可信度。但它们也提醒我们：在计算科学中，结果的可重复性不仅取决于方法本身，还取决于数据处理管道、评估工具和软件版本。论文二的框架是"理论上正确的"，但实践中要达到论文报告的数字，需要精确重现所有实现细节。

论文一在这方面相对幸运：A/B testing 有解析解，preference learning 的设置相对标准。但高维实验中的 neural OT estimator 也依赖于 ICNN 的具体实现。

### 4.6 两篇论文的共同局限

读两篇论文时，一个共同的疑问浮现：它们处理的是各自领域中的"干净"问题，但真实世界往往更混乱。

论文一的 BOED 框架假设你能定义先验和似然。但在很多实际场景中，先验本身就不确定，likelihood 可能有复杂的结构误差。IPM 的稳定性保证能处理 surrogate 误差，但如果 forward model 的系统误差不是随机的而是有方向的，这些保证可能不够。

论文二的商空间框架假设群作用是自由、正常且等距的。对于 SE(3) 作用于点云，这需要排除所有点共线的退化构型。虽然这些退化集合是零测的，但在数值模拟中，迭代过程可能偶然接近它们，导致投影算子 𝐊 接近奇异。

两篇论文都没有处理**部分对称性破缺**的场景：如果系统有近似对称性而非精确对称性，或者对称群本身依赖于配置（如某些分子在特定构象下有额外的对称性），框架需要怎样的修改？

---

## 结语：回到费曼的问题

理查德·费曼有一个著名的说法："What I cannot create, I do not understand." 这两篇论文都在帮助我们"创造"——更稳定的实验设计，更高效的分子生成。但它们实现的方式不是添加更多的层、更多的参数、更多的训练数据，而是回到问题的数学本质，去掉那些从来不应该存在的东西。

论文一去掉了对密度比的依赖。论文二去掉了对等价类内部运动的学习。两者都表明：**理解一个问题的真正结构，往往比用更强大的工具去近似它更重要。**

当信息论遇上几何，它们没有互相取代。IPM 提供了在测度空间中比较分布的几何工具，商空间提供了在配置空间中消除冗余的几何结构。它们各自解决了一个领域中长期存在的痛点，但都遵循同一个原则：**找到真正需要的东西，然后不学其他一切。**

在 AI 研究日益工程化的今天，这种回到第一性原理的思考尤为珍贵。积分概率度量和商空间扩散不会成为所有问题的标准答案，但它们提醒了我们：当标准工具让你感到不适时，可能是工具本身需要被重新发明。

> 费曼会喜欢这两篇论文。不是因为它们的数学有多复杂，而是因为它们都问了一个简单的问题："我们能不能用更简单的方式做这件事？" 而答案——经过很多页的证明之后——是：可以。

---

## 参考文献速览

**论文一核心引用链：**
- Lindley (1956): EIG 的原始定义
- Müller (1997): IPM 的奠基工作
- Gretton et al. (2009, 2012): MMD 在机器学习中的应用
- Foster et al. (2019): variational BOED 方法
- Helin et al. (2025): 并行工作，用 Wasserstein 做 OED
- Amos et al. (2017): ICNN 用于最优传输

**论文二核心引用链：**
- Ho et al. (2020), Song et al. (2021): DDPM / score-based 扩散模型
- Albergo et al. (2023): Stochastic Interpolant 框架
- Xu et al. (2022): GeoDiff，alignment 的先驱
- Hoogeboom et al. (2022): 等变扩散模型 EDM
- Abramson et al. (2024): AlphaFold 3，AF3 alignment
- Geffner et al. (2025): Proteína，蛋白质生成的 SOTA
- Lee (2018): Riemannian geometry 标准教材

---

*本文由 Paper Slam 4/26 项目生成。所有技术细节以原论文为准。*

#论文对比 #PaperSlam #AI论文 #2604.21849 #2604.21809 #小凯
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
Paper Slam 4/26：当信息论遇上几何对称性——两篇论文的深层对话

讨论回复

推荐