# Paper Slam 4/26:当信息论遇上几何对称性——两篇论文的深层对话
> arXiv:2604.21849 | arXiv:2604.21809
---
## 引言:两个世界,同一种焦虑
2026年4月的arXiv上,两篇看似毫不相关的论文几乎同时出现。一篇讲如何用积分概率度量(Integral Probability Metrics, IPMs)替代KL散度来做贝叶斯最优实验设计,另一篇讲如何在商空间上建立扩散模型来生成分子结构。一个来自马里兰大学数学系,另一个来自北京大学和微软亚洲研究院。它们的应用领域一个偏向科学计算中的实验规划,一个偏向计算化学中的结构生成。
但如果你把两篇文章并排放在一起读,会发现它们共享同一种深层的焦虑:我们手里的数学工具,在面对真实世界的复杂性时,是不是在自欺欺人?
论文一的作者Wu, Liang和Yang在开头就指出了一个令人不安的事实:KL散度作为信息论中距离度量的"标准答案",在 tails 处极其脆弱。一个 surrogate model 在 low-probability region 上的微小误差,就能让 KL 散度对数爆炸。而论文二的作者Xu, Wang, Luo等人则发现,传统群等变扩散模型虽然保证了输出分布的对称不变性,但神经网络仍然被迫学习等价类内部的冗余运动——就像要求一个画家不仅要画出肖像,还要精确指定画布在房间里的摆放角度。
两篇论文的解决方案截然不同,但都指向同一个方向:**不要只在问题的表象层面修修补补,要回到问题的几何本质。**
论文一说,别再用密度比来度量分布之间的差异了,直接用 test function 的期望差异。论文二说,别在原始空间里强行学习对称不变性了,直接在商空间里建模。一个是信息论的视角,一个是微分几何的视角。但它们的核心洞察惊人地一致:**找到真正需要学习的东西,然后想办法不学习其他一切。**
这篇文章的目的,就是把这两篇论文放在一起,看看当信息论的IPM遇上几何的商空间,会碰撞出什么火花。
---
## 第一章:IPM-based BOED——当KL散度不再可靠
### 1.1 问题的起点:实验设计的本质
想象你是一位材料科学家,手头有一个昂贵的实验设备,每次测试要消耗大量资源。你想找出某种新材料的某种关键物理参数,但你不能无限次地做实验。这就是 Optimal Experimental Design(OED)要解决的问题:给定有限的实验预算,怎样选择实验条件,才能最大程度地减少我们对未知参数的不确定性?
贝叶斯版本的 OED(BOED)把这个问题形式化了。你有一个先验分布 p(x),代表实验前你对参数 x 的信念。你选择一个实验设计 ξ,观察到结果 y,然后得到后验分布 p(x|y,ξ)。信息增益就是你从 y 中学到了多少——经典的做法是用 KL 散度从后验到先验的距离来衡量。
数学上,Expected Information Gain(EIG)写成:
EIG(ξ) = ∫_𝒴 ∫_𝒳 log(p(x|y,ξ)/p(x)) p(x|y,ξ) p(y|ξ) dx dy
这看起来很美。KL散度有信息论背书,有变分下界可以近似,有一整套计算工具。论文一的作者们一开始也承认这一点:"Despite its conceptual appeal..."
但接下来他们提出了三个让这套标准答案坐立不安的问题。
### 1.2 KL散度的三个死穴
**第一个问题:支持不匹配(support mismatch)。** KL散度要求两个分布有重叠的支持集——严格来说,要求绝对连续性。但在实际计算中,你往往用一个连续的先验和一个离散的蒙特卡洛近似来工作。它们之间的 KL 散度在技术上是无穷大。这就像一个测量工具,在你要用的场景里刻度本身是坏的。
**第二个问题:尾部低估(tail underestimation)。** KL散度对密度比敏感。如果 surrogate model 在某个低概率区域给了一个接近零的似然值,而真实模型在那里并非可以忽略,KL 就会对数爆炸。这不是估算器的问题,这是目标函数本身的问题。论文一用一个精心设计的"罕见事件污染实验"展示了这一点:在两个分布只在尾部有差异的场景中,KL 估计几乎被污染样本的数量线性锁定,方差极大。而 Wasserstein 距离、Energy Distance 和 MMD 对污染样本的响应平滑得多。
**第三个问题:嵌套期望的计算噩梦。** EIG 涉及嵌套积分——对每个可能的 y,你都要计算一个后验期望。即使有了 Foster 等人的 variational 方法,底层的目标仍然是对数密度比,上述结构问题一个都没解决。
### 1.3 IPMs:从密度比到期望差异
论文一提出的替代方案是 Integral Probability Metrics。核心思想极其简洁:不再问"两个分布的密度比是多少",而是问"两个分布在多大程度上会让同一类 test function 给出不同的期望"。
数学上,IPM 定义为:
γ_ℱ(P,Q) = sup_{f∈ℱ} |E_X∼P[f(X)] - E_Y∼Q[f(Y)]|
ℱ 是 test function 类。选不同的 ℱ,就得到不同的几何度量:
- 选 Lipschitz 函数类(‖f‖_L ≤ 1),得到 1-Wasserstein 距离。
- 选 RKHS 的单位球,得到 Maximum Mean Discrepancy(MMD)。
- 选基于 semimetric of negative type 的函数类,得到 Energy Distance(ED)。
关键区别在于:IPM 不需要密度。你可以用样本直接估计它。两个经验分布之间的 MMD 可以直接通过核函数计算,不涉及密度估计。Wasserstein 距离在最优传输的框架下也可以通过样本求解。Energy Distance 只需要两两距离。
论文一把这个框架带入 BOED,定义了 IPM-based utility:
U_ℱ(ξ) = ∫_𝒴 γ_ℱ(p(x), p(x|y,ξ)) p(y|ξ) dy
这看起来只是把 KL 换成了 IPM,但底层稳定性完全不同。
### 1.4 稳定性理论:bounded vs. unbounded
论文一的核心理论贡献是一套系统的稳定性分析,回答了一个关键问题:**如果你的 surrogate model 有误差,或者你的 prior 只是近似,设计 utility 会恶化多少?**
这里有一个精妙的层次结构。
对于 **bounded IPM**(如 MMD with translation-invariant radial kernel),test function 的增长被全局截断:sup|f(x)| ≤ M < ∞。这意味着 utility 误差被 L1 似然误差线性控制,**无条件地**。你不需要假设 prior 的尾部衰减,不需要假设 forward model 的全局 Lipschitz 性。只要 surrogate 的 L1 误差小,utility 误差就小。
对于 **unbounded IPM**(如 Energy Distance 和 1-Wasserstein),test function 随 ‖x‖ 增长。ED 的增长率是 O(‖x‖^{1/2}),W1 的增长率是 O(‖x‖)。这带来了更强的几何能力——它们能捕捉分布之间的空间位移——但也需要更强的条件来保证稳定性:sub-Gaussian prior、globally Lipschitz forward model。
论文一把这个权衡说得很清楚:bounded IPMs 提供普遍适用的稳定性担保,但几何表达力较弱;unbounded IPMs 几何表达力更强,但需要额外的结构假设。
一个特别重要的对比是:KL散度的稳定性根本无法纳入这个框架。因为 KL 的 test function 是对数密度比,它的增长不受控,而且对乘性误差而非加性误差敏感。在 surrogate 误差方面,KL 的理论行为是"不稳定的"——一个小的 L∞ 扰动就能让 KL 爆炸。
### 1.5 从理论到计算:plug-and-play 的魔力
论文一不仅在理论上建立了 IPM-based BOED 的框架,还展示了它在计算上的实用性。因为 IPMs 天然适合 sample-based 估计,整个 BOED pipeline 可以保持模块化。
以 A/B testing 为例,论文一给出了 W1 的 closed-form 期望效用。在 preference learning 实验中,IPM-based utilities 比 KL-based 有更宽的近最优区域和更稳定的优化景观。在高维设置中,作者进一步展示了如何把 neural optimal transport estimator(OT-ICNN)plug-and-play 地接入同一个框架——这是理论分析未覆盖的 IPM 之外的 discrepancy,但计算 pipeline 完全兼容。
这里有一个深刻的方法论信号:信息论和最优传输之间的界限正在模糊。KL散度曾经是信息论的"标准度量",但当你真正关心的是"分布差异如何影响决策"时,几何度量的优越性可能压倒传统信息论的优雅性。
---
## 第二章:Quotient-Space Diffusion——让对称性自己消失
### 2.1 分子的坐标困境
想象你要生成一个分子的三维结构。你有 N 个原子,每个原子有 3 个坐标,总共是一个 3N 维的向量。这就是传统扩散模型的输入空间:ℝ^{3N}。
但这里有一个根本性的冗余:把一个分子整体旋转或平移,它的化学本质不变。SE(3)——三维特殊欧氏群,包含所有旋转和平移——把 ℝ^{3N} 中的很多向量映射到"同一个分子"。如果你把分子旋转 90 度,它在化学上没有任何区别,但在 ℝ^{3N} 中它是一个完全不同的点。
传统的处理方式有两条路径:
**路径一:数据增强。** 训练时对每个样本随机施加 SE(3) 变换,让模型看到所有旋转版本。这相当于强制模型学习一个 invariant 的分布——等价对象有相同的概率。
**路径二:群等变架构。** 使用等变图神经网络(如 EGNN),保证 D_θ(g·x, t) = g·D_θ(x, t)。如果先验也是 invariant 的,那么生成过程就是 invariant 的。
但论文二指出,这两条路径都有一个共同的盲点:它们让分布 invariant,但没有让**学习过程** invariant。神经网络在每一步去噪时,仍然需要学习如何在一个等价类内部移动——也就是学习旋转和平移。这就像要求画家不仅画肖像,还要学会精确控制画布的角度。问题是:画布的角度从来都不是肖像的一部分。
### 2.2 商空间:问题的真正所在
论文二的解决方案来自微分几何:与其在 ℝ^{3N} 上学习一个 SE(3)-invariant 的分布,不如直接在商空间 ℝ^{3N}/SE(3) 上建立扩散模型。商空间中的每个点不再是一个具体的坐标向量,而是一个等价类——所有通过 SE(3) 变换相关的坐标向量的集合。
这听起来很抽象,但直觉很简单:商空间丢掉了所有"多余"的自由度。在商空间里,旋转和平移根本不存在。你不需要学习它们,因为它们不是商空间的坐标。
技术上,商空间是一个 Riemannian manifold。你需要在上面定义扩散过程——也就是 Wiener process 的推广。论文二的核心定理(Theorem 1)给出了关键结果:如果你在原始空间 ℳ 上有一个 G-等变的扩散过程,那么它在商空间 𝒬 = ℳ/𝒢 上的投影也是一个扩散过程,满足一个修正的 SDE:
d𝐲_t = ((π_* 𝐛_t)(𝐲_t) - σ_t²/2 𝐡(𝐲_t)) dt + σ_t d𝛚_t
其中 𝐡 是 mean curvature vector field——一个由商空间几何引入的修正项,反映了等价类体积沿空间移动的变化率。
### 2.3 水平提升:回到可计算的世界
直接在商空间上做模拟很困难——商空间没有简单的全局坐标。论文二的下一个洞察是利用 **horizontal lift**:把商空间的扩散过程"提升"回原始空间,但只保留水平分量。
Riemannian 度量的结构给出了自然的水平空间定义:垂直空间 𝒱_𝐱 = Ker π_*𝐱 对应于等价类内部的切向量(旋转/平移方向),水平空间 ℋ_𝐱 是它的正交补,对应于跨越等价类的切向量(真正的形变方向)。
任何切向量 𝐯 可以唯一分解为 𝐯 = 𝐯^𝒱 + 𝐯^ℋ。论文二证明了:如果你只保留水平分量,原始空间的扩散过程在商空间上的投影不变,但采样路径变短了——因为它从不做冗余的等价类内部运动。
对于 SE(3) 的具体情况,论文二给出了投影算子 P 的显式公式。对于 SO(3) 旋转部分:
P_𝐱(𝐯) = (𝐯^(n) - 𝐊⁻¹(∑ x^(n') × v^(n')) × x^(n))_n
其中 𝐊 = ∑ ‖x^(n)‖² 𝐈 - ∑ x^(n) x^(n)ᵀ。
这个公式的物理意义极其清晰:它移去了系统的总角动量。水平空间中的向量对应于"纯形变"——改变分子的内部结构,而不让它整体旋转。这就像在进行一次手术时固定病人的体位——你只动手术刀,不动整个手术台。
### 2.4 训练目标的重新设计
基于这个框架,论文二提出了新的训练目标。传统的扩散模型训练要求 D_θ(x_t, t) 预测 x_1(干净样本)。但在商空间框架下,你只需要预测水平分量:
ℒ(θ) = 𝔼 ‖P_𝐱_t (D_θ(𝐱_t, t) - 𝐱_1)‖²
关键性质:对于任意垂直向量 𝐯^𝒱,D_θ + 𝐯^𝒱 和 D_θ 有完全相同的损失值。这意味着模型完全不需要学习等价类内部的预测——垂直空间中的任意输出都是最优解。
论文二把这个优势总结为一个清晰的表格,对比了四种训练策略:
| 策略 | 是否移除等价自由度 | 是否移除等价自由度方差 | 采样兼容性 |
|------|------------------|----------------------|----------|
| 传统损失 | ✗ | ✗ | ✓ |
| GeoDiff alignment | ✗ | ✓ | ✗ |
| AF3 alignment | ✓ | ✓ | ✗ |
| Quotient-space diffusion | ✓ | ✓ | ✓ |
只有商空间扩散同时满足三个条件:移除了等价自由度的学习负担、移除了等价自由度上的方差、并且采样过程保证恢复目标分布。
### 2.5 为什么 alignment 不行
论文二对现有的 alignment 方法做了深入的批判性分析。
GeoDiff 的 alignment:训练时把目标样本对齐到噪声输入的坐标系。这消除了等价自由度上的方差,但最优解仍然是 E[A_𝐱_t(𝐱_1)|𝐱_t],这仍然要求模型学习一个特定的映射——对齐后的目标还是依赖于 𝐱_t 的方向。
AF3 的 alignment:对齐目标样本到模型输出。这更激进——允许模型输出相差任意群作用,因此完全移除了等价自由度的学习需求。但问题在采样阶段:因为模型输出在等价自由度上是任意的,通过 Eq. (5) 得到的向量场 𝐯_θ 也带有任意性。传统的采样器无法保证恢复正确的目标分布。
Boltz-1 尝试在采样时对齐预测到当前步骤结构,但论文二指出这本质上退化为 GeoDiff 的模型,同样缺乏采样保证。
这些分析揭示了一个深层问题:alignment 是训练阶段的启发式技巧,它改变了学习目标但没有改变采样理论。训练-采样的不匹配是这些方法的结构性缺陷。
### 2.6 实验结果
论文二在小分子和蛋白质结构生成上验证了方法。
**小分子(GEOM-QM9, GEOM-DRUGS):** Quotient-space diffusion 在 ET-Flow 架构上实现了 9%-23% 的相对改进。在 GEOM-QM9 上,Coverage recall 从 95.98% 提升到 96.40%,AMR mean 从 0.076 降到 0.069。关键对比是:AF3 alignment 在这个基准上实际上是倒退的——它把 recall 从 95.98% 拉低到 92.67%。这直接证明了训练-采样不匹配的破坏性。
**蛋白质(Proteína baseline):** 60M 参数的 quotient-space 模型在多个关键分布度量上超过了 200M 参数的基线。SDE 采样中,designability 在 γ=0.35 时从 96.0% 提升到 97.6%。在 ODE 采样中,FPSD vs. PDB 从 83.2 降到 69.9,fJSD vs. PDB 从 21.9 降到 17.6。更惊人的是,与 AF3 alignment 的对比:alignment 把 designability 从 13.8% 降到 3.8%——几乎摧毁了模型。
这些数字不仅证明了商空间方法的优势,也揭示了 alignment 方法的潜在危险:它可能在训练时看起来减少了学习难度,但在采样时破坏分布的正确性。
---
## 第三章:华山论剑——两种几何感知的对话
### 3.1 问题结构的相似性
把两篇论文放在一起看,你会发现它们处理的是同一个元问题:**系统中有一些自由度是不必要的,但传统的数学工具迫使你处理它们。**
在 BOED 中,不必要的自由度是"对密度比的依赖"。KL散度看起来是信息论的"自然"选择,但它隐含了一个强假设:你必须能计算密度比。而在 sample-based 的现代计算管道中,你只有粒子近似,没有解析密度。KL 的绝对连续性要求在这个场景里像一件不合身的衣服。
在分子扩散中,不必要的自由度是"等价类内部的运动"。SE(3) 对称性意味着旋转和平移不是分子结构的一部分,但 ℝ^{3N} 的坐标系强行把它们包含进来。传统方法试图通过等变架构或数据增强来"屏蔽"这些自由度,但神经网络仍然在每个扩散步骤中被迫处理它们。
两篇论文的解决方案都是**改变问题的空间**——不是在其上打补丁,而是直接定义在一个更小的、本质的空间上。
论文一说:别在密度空间里玩,直接在测度空间里用 IPM。论文二说:别在 ℝ^{3N} 里玩,直接在商空间里扩散。
### 3.2 度量 vs. 空间的深层对应
这里有一个更深刻的对应关系。
IPM 本质上是在测试**函数空间**上的几何:你选一类 test function,看两个分布在这个函数类上的表现差异。Wasserstein 距离选 Lipschitz 函数,意味着它关心分布的"空间位移"。MMD 选 RKHS 函数,意味着它关心分布的"平滑特征差异"。
商空间扩散本质上是在**配置空间**上做几何:你定义一个 Riemannian 度量,把对称方向(垂直空间)和物理方向(水平空间)正交分解,然后只在水平方向上运动。
两者都利用了正交分解的思想:
- IPM 的正交分解是在函数空间中:test function 类 ℱ 定义了一个对偶空间的结构,两个分布的差异通过它们在 ℱ 上的投影来度量。
- 商空间的正交分解是在切空间中:水平空间 ℋ 是垂直空间 𝒱 的正交补,只保留不沿群作用方向运动的切向量。
这种对应不是巧合。它们都反映了一个几何原则:**把结构分解为"变形的"和"不变的"两部分,然后只处理变形的部分。**
### 3.3 稳定性的不同侧面
两篇论文都谈论稳定性,但指的是不同的东西。
论文一的稳定性是**utility stability under approximation**。如果你的 surrogate model 有误差,如果你的 prior 只是离散近似,你的实验设计 utility 会恶化多少?答案是:对于 bounded IPM,恶化被 L1 误差线性控制;对于 unbounded IPM,恶化受 test function 增长率和 prior tail 条件约束。核心机制是加性误差而非乘性误差。
论文二的稳定性是**distribution recovery under symmetry**。如果你的模型不学习等价类内部的冗余运动,你仍然能保证采样恢复正确的目标分布。答案是:horizontal lift 的扩散过程保证投影不变性,Corollary 3 证明了 lifted process 和 original process 产生相同的分布。核心机制是几何投影而非模型约束。
如果把它们放在一起,你看到一个更大的图景:稳定性可以来自两个方向——要么你的度量天生对近似误差不敏感(IPM 的 test function 有界性),要么你的过程天生限制在不敏感的方向上运动(商空间的水平投影)。
### 3.4 从低密度区域到低维结构
两篇论文还共享另一个洞察:真正有趣的东西往往发生在"低"的地方。
论文一关注的是**低密度尾部**(tail events)。在 rare-event contamination 实验中,差异只在 epsilon = 0.01 的 contamination component 中出现。KL 散度在这些区域爆炸,因为密度比的对数在小分母处发散。IPMs 对这些区域更鲁棒,因为它们的 test function 不依赖于密度比。
论文二关注的是**低维结构**(quotient manifold)。ℝ^{3N} 是 3N 维的,但商空间 ℝ^{3N}/SE(3) 只有 3N-6 维(去掉 3 个平移和 3 个旋转自由度)。扩散过程在这个低维结构上运动,意味着采样路径更短、学习空间更小、模型需要近似的目标函数更简单。
"低"的不同含义——低密度区域和低维结构——但共同的主题是:**复杂性往往来自问题表述本身引入的冗余,而非问题本身。**
### 3.5 plug-and-play 的两种实现
两篇论文都展示了计算框架的可扩展性。
论文一的 plug-and-play 是在**度量层面**:IPM 的 sample-based 估计 pipeline 可以无缝接入 neural optimal transport estimator。OT-ICNN 不是 IPM,但同样的 BOED 模板可以容纳它。这体现了框架的模块化。
论文二的 plug-and-play 是在**架构层面**:商空间扩散既可以用等变架构实现,也可以用一般架构加数据增强实现。投影算子 P_𝐱 只修改训练目标和采样过程,不约束模型架构的选择。这体现了框架的灵活性。
两者都在说:我们提供的是**原理**,不是**配方**。你可以把原理适配到你的具体场景中。
---
## 第四章:深层思考——当一个方法被发明时,真正被发明的是什么
### 4.1 从 KL 霸权到几何多样性
BOED 领域长期被 KL 散度主导。这不是因为 KL 是"正确"的度量,而是因为信息论的历史主导地位让它成为了默认选择。论文一的价值不仅在于提出了 IPM-based BOED,更在于它系统地展示了:当你改变度量时,你改变的是问题对误差的敏感结构。
这种敏感结构才是选择度量的真正依据。如果你的 surrogate model 在高概率区域很准但在尾部有误差,bounded IPM 可能是正确的选择,因为它无条件地控制误差。如果你的应用真正关心分布的空间位移(比如你需要 posterior 的可信区间在参数空间中的几何形状),Wasserstein 可能更合适,尽管它需要更强的假设。
论文一的隐含贡献是:**把度量选择从"教条"变成"设计决策"**——基于你对误差结构、尾部行为和计算约束的理解来做选择。
### 4.2 对称性的代价
论文二揭示了一个关于对称性的深层悖论。传统观点认为,对称性是一种"约束"——你需要通过等变架构或数据增强来"强制"模型尊重它。但论文二表明,对称性更应该被理解为一种"约简"——它不是约束而是消除,不是增加条件而是减少自由度。
这个观点有深远的意义。在深度学习领域,群等变网络(equivariant networks)近年来很受欢迎,因为它们把物理对称性作为归纳偏置。但论文二提醒我们:等变架构仍然是在原始空间中工作,只是保证了输出随输入的群变换而协变。商空间方法则更进一步——它直接在对称性已经"被除掉"的空间中工作。
两者的区别就像:一个是写程序时加上类型检查来防止错误,另一个是设计一门没有这类错误的编程语言。前者是工程上的约束,后者是数学上的消除。
### 4.3 理论保证的真正含义
两篇论文都提供了理论保证,但这些保证的含义需要仔细理解。
论文一的 stability bound(Theorem 4.1 和 4.2)给出了 utility 误差的**上界**。但这些上界可能是松散的——它们不告诉你真实的误差是多少,只告诉你误差不会超过多少。在实践中,这种保证的价值在于**定性洞察**:它告诉你 bounded IPM 在理论上是无条件稳定的,而 unbounded IPM 需要 tail 条件。这帮助你选择合适的工具,但不替代 empirical validation。
论文二的采样保证(Corollary 3)更强一些:它证明了 lifted process 和 original process 产生**完全相同的分布**。这是一个精确结果而非上界。但它依赖于水平投影的精确计算——在实际数值模拟中,投影的离散化误差仍然会引入近似。
理论保证的真正作用不是"证明方法有效",而是**"揭示方法为什么有效"**。它们告诉你稳定性的来源在哪里,这样当你把方法应用到新场景时,你知道哪些条件必须保持。
### 4.4 从具体到一般的道路
两篇论文都走了"从一般到具体"的论文结构:先建立一般框架,然后特化到具体应用。
论文一的 IPM 框架是统一的(涵盖 W1, MMD, ED),然后具体讨论了 bounded vs. unbounded 的行为差异,最后用 A/B testing、preference learning、高维线性高斯和高维 sign-ambiguous 基准来验证。
论文二的商空间扩散先建立在一般 Riemannian manifold 和一般 Lie group 上,然后特化到 ℝ^{3N}/SE(3) 用于分子结构生成,给出了显式的投影算子和 mean curvature vector。
这种"一般→具体"的结构不是装饰性的。它表明作者们相信他们的框架有超越当前应用的潜力。论文一的方法可以用于任何需要比较 prior 和 posterior 的实验设计场景。论文二的方法可以推广到任何具有 Lie group 对称性的配置空间——晶体结构生成、分子动力学、甚至某些物理场的参数化。
### 4.5 可重复性的隐忧
论文二的一个细节值得注意。作者在 GEOM-DRUGS 上 reproducing ET-Flow 的结果时承认:"Due to changes in the data processing pipeline, our reproduced results do not exactly match those reported in the original paper." 同时,在蛋白质实验中,由于 Foldseek 的一个已知 bug,比较分析主要聚焦于 designability。
这些坦诚的披露反而增加了论文的可信度。但它们也提醒我们:在计算科学中,结果的可重复性不仅取决于方法本身,还取决于数据处理管道、评估工具和软件版本。论文二的框架是"理论上正确的",但实践中要达到论文报告的数字,需要精确重现所有实现细节。
论文一在这方面相对幸运:A/B testing 有解析解,preference learning 的设置相对标准。但高维实验中的 neural OT estimator 也依赖于 ICNN 的具体实现。
### 4.6 两篇论文的共同局限
读两篇论文时,一个共同的疑问浮现:它们处理的是各自领域中的"干净"问题,但真实世界往往更混乱。
论文一的 BOED 框架假设你能定义先验和似然。但在很多实际场景中,先验本身就不确定,likelihood 可能有复杂的结构误差。IPM 的稳定性保证能处理 surrogate 误差,但如果 forward model 的系统误差不是随机的而是有方向的,这些保证可能不够。
论文二的商空间框架假设群作用是自由、正常且等距的。对于 SE(3) 作用于点云,这需要排除所有点共线的退化构型。虽然这些退化集合是零测的,但在数值模拟中,迭代过程可能偶然接近它们,导致投影算子 𝐊 接近奇异。
两篇论文都没有处理**部分对称性破缺**的场景:如果系统有近似对称性而非精确对称性,或者对称群本身依赖于配置(如某些分子在特定构象下有额外的对称性),框架需要怎样的修改?
---
## 结语:回到费曼的问题
理查德·费曼有一个著名的说法:"What I cannot create, I do not understand." 这两篇论文都在帮助我们"创造"——更稳定的实验设计,更高效的分子生成。但它们实现的方式不是添加更多的层、更多的参数、更多的训练数据,而是回到问题的数学本质,去掉那些从来不应该存在的东西。
论文一去掉了对密度比的依赖。论文二去掉了对等价类内部运动的学习。两者都表明:**理解一个问题的真正结构,往往比用更强大的工具去近似它更重要。**
当信息论遇上几何,它们没有互相取代。IPM 提供了在测度空间中比较分布的几何工具,商空间提供了在配置空间中消除冗余的几何结构。它们各自解决了一个领域中长期存在的痛点,但都遵循同一个原则:**找到真正需要的东西,然后不学其他一切。**
在 AI 研究日益工程化的今天,这种回到第一性原理的思考尤为珍贵。积分概率度量和商空间扩散不会成为所有问题的标准答案,但它们提醒了我们:当标准工具让你感到不适时,可能是工具本身需要被重新发明。
> 费曼会喜欢这两篇论文。不是因为它们的数学有多复杂,而是因为它们都问了一个简单的问题:"我们能不能用更简单的方式做这件事?" 而答案——经过很多页的证明之后——是:可以。
---
## 参考文献速览
**论文一核心引用链:**
- Lindley (1956): EIG 的原始定义
- Müller (1997): IPM 的奠基工作
- Gretton et al. (2009, 2012): MMD 在机器学习中的应用
- Foster et al. (2019): variational BOED 方法
- Helin et al. (2025): 并行工作,用 Wasserstein 做 OED
- Amos et al. (2017): ICNN 用于最优传输
**论文二核心引用链:**
- Ho et al. (2020), Song et al. (2021): DDPM / score-based 扩散模型
- Albergo et al. (2023): Stochastic Interpolant 框架
- Xu et al. (2022): GeoDiff,alignment 的先驱
- Hoogeboom et al. (2022): 等变扩散模型 EDM
- Abramson et al. (2024): AlphaFold 3,AF3 alignment
- Geffner et al. (2025): Proteína,蛋白质生成的 SOTA
- Lee (2018): Riemannian geometry 标准教材
---
*本文由 Paper Slam 4/26 项目生成。所有技术细节以原论文为准。*
#论文对比 #PaperSlam #AI论文 #2604.21849 #2604.21809 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!