假设你想用神经网络模拟一个随机偏微分方程(SPDE)——比如某个物理场在随机噪声驱动下的演化。传统的神经算子(neural operator,比方说傅里叶神经算子 FNO)训练起来很快,一次前向传播就能给出预测。
但有一个问题:如果你的 PDE 是随机的——初始条件的微小波动会导致结果的巨大差异——神经算子只会输出条件均值。它告诉你"平均而言,在这个位置上的温度是 23.5 度"。它不告诉你"有 10% 的概率温度会超过 40 度"。不知道方差,不知道尾部风险。对于不确定性量化来说,这和什么都没说差不多。
通常的做法是在后面接一个生成模型——扩散模型、流模型——去学条件分布。但这牺牲了神经算子最吸引人的特性:一次前向传播的效率和分辨率不变性。
Hidajat——这个人也在同一期 arXiv 上发了 grokking 那篇论文——最近提出了一种新的架构(2605.15806),用一种出人意料的方式解决了这个问题:把一个概率定理编码成神经网络的架构。
**📜 Doob-Meyer 分解**
Doob-Meyer 定理是 1960 年代发展出来的鞅论核心定理。它说的是:任何半鞅(一种足够一般的随机过程)都可以唯一分解成一个可预测的漂移项和一个不可预测的零期望鞅。
> "半鞅"听着吓人,其实就是"一个随机过程,它有一个有规律的漂移部分和一个完全随机的噪声部分"。股票价格就是个例子——它的变动可以分解为"基本面驱动的趋势"(漂移)和"不可预测的市场噪声"(鞅部分)。
Hidajat 做的事很简单:把这个分解当作一个架构设计原则。神经算子的主体预测漂移项——条件均值。连接一个轻量级的低秩分支来预测鞅项——条件协方差。
这里的关键是"轻量级"。标准做法是单独训练一个生成模型来预测完整的条件分布。但 MNO 的做法是让神经网络同时输出均值和协方差,但协方差部分用一个低秩因子 B_φ 参数化,B_φ^T B_φ 本身就是半正定的,不需要额外的约束处理。
**⚡ 效果惊人**
他们在三类任务上做了测试。一维随机 PDE、粗糙波动率(金融中的随机过程)、二维神经算子任务。
结果:在 φ⁴ 场论这个标准基准上,MNO 的 Wasserstein 距离比条件扩散基线好了 120 倍。在随机 Burgers 方程上,好了 68 倍。而且它比条件扩散基线快大约 3 倍——同样训练预算下。
在二维任务上,MNO 在零样本分辨率迁移和湍流模拟上与标准 FNO 相当。
有一个有趣的失败模式:"准确定系统"——如 Gray-Scott 反应扩散方程。在这些系统中,过程的随机性非常小,主要就是确定性动力学。MNO 的鞅分解在这种情况下优势不大——因为没有什么随机性可以学。
**🤷 不清楚的地方**
第一,Doob-Meyer 分解是针对时序定义的随机过程的。但很多 SPDE 求解任务中,"随机性"可能存在于初始条件、边界条件或者驱动噪声中。MNO 把 Doob-Meyer 架构应用到了"从初始条件到终端分布的映射"上——这意味着他把初始条件当作"漂移",把所有不确定性都装进了"鞅"。这个映射在数学上是否总是保 Doob-Meyer 分解的结构?我不确定,因为初始条件和终端分布之间可能有复杂的非线性路径。
第二,低秩协方差假设。B_φ^T B_φ 是一个低秩矩阵——意味着它假设随机的不确定性集中存在于一个低维子空间中。对于很多物理系统,这个假设可能成立——不确定性的主要模式确实只有少数几个。但哪些系统不满足这个假设?那些不确定性能量均匀分布在所有模态上的系统——比如完全湍流——可能无法被低秩协方差很好地捕获。
第三,论文提到了一个"高斯残差实例化"——他们假设了终端分布的条件高斯性。很多物理系统的条件分布可能是非高斯的——双峰、偏斜、重尾。高斯假设简化了协方差参数化,但也限制了对非高斯结构的捕捉能力。
但总体而言,这是一个漂亮的架构思路:不是把不确定性量化当作训练后的附加步骤,而是把它编码进神经网络的架构中。那个 1960 年代的金融数学定理,在 2026 年被用来加速 SPDE 的模拟。
---
**参考文献**
1. Hidajat, K. (2026). *Martingale Neural Operators: Learning Stochastic Marginals via Doob-Meyer Factorization*. arXiv:2605.15806 [cs.LG]. https://arxiv.org/abs/2605.15806
2. Doob, J. L. (1953). *Stochastic Processes*. Wiley.
3. Li, Z., et al. (2021). *Fourier Neural Operator for Parametric Partial Differential Equations*. ICLR 2021.
4. Kovachki, N., et al. (2023). *Neural Operator: Learning Maps Between Function Spaces*. JMLR, 24(1), 1-97.
5. Meyer, P. A. (1966). *Probability and Potentials*. Blaisdell.
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力