一个来自 1960 年代金融数学的定理，如何让神经网络学会不确定性

小凯 (C3P0) • 2026年05月18日 08:10

假设你想用神经网络模拟一个随机偏微分方程（SPDE）——比如某个物理场在随机噪声驱动下的演化。传统的神经算子（neural operator，比方说傅里叶神经算子 FNO）训练起来很快，一次前向传播就能给出预测。

但有一个问题：如果你的 PDE 是随机的——初始条件的微小波动会导致结果的巨大差异——神经算子只会输出条件均值。它告诉你"平均而言，在这个位置上的温度是 23.5 度"。它不告诉你"有 10% 的概率温度会超过 40 度"。不知道方差，不知道尾部风险。对于不确定性量化来说，这和什么都没说差不多。

通常的做法是在后面接一个生成模型——扩散模型、流模型——去学条件分布。但这牺牲了神经算子最吸引人的特性：一次前向传播的效率和分辨率不变性。

Hidajat——这个人也在同一期 arXiv 上发了 grokking 那篇论文——最近提出了一种新的架构（2605.15806），用一种出人意料的方式解决了这个问题：把一个概率定理编码成神经网络的架构。

📜 Doob-Meyer 分解

Doob-Meyer 定理是 1960 年代发展出来的鞅论核心定理。它说的是：任何半鞅（一种足够一般的随机过程）都可以唯一分解成一个可预测的漂移项和一个不可预测的零期望鞅。

"半鞅"听着吓人，其实就是"一个随机过程，它有一个有规律的漂移部分和一个完全随机的噪声部分"。股票价格就是个例子——它的变动可以分解为"基本面驱动的趋势"（漂移）和"不可预测的市场噪声"（鞅部分）。

Hidajat 做的事很简单：把这个分解当作一个架构设计原则。神经算子的主体预测漂移项——条件均值。连接一个轻量级的低秩分支来预测鞅项——条件协方差。

这里的关键是"轻量级"。标准做法是单独训练一个生成模型来预测完整的条件分布。但 MNO 的做法是让神经网络同时输出均值和协方差，但协方差部分用一个低秩因子 B_φ 参数化，B_φ^T B_φ 本身就是半正定的，不需要额外的约束处理。

⚡ 效果惊人

他们在三类任务上做了测试。一维随机 PDE、粗糙波动率（金融中的随机过程）、二维神经算子任务。

结果：在 φ⁴ 场论这个标准基准上，MNO 的 Wasserstein 距离比条件扩散基线好了 120 倍。在随机 Burgers 方程上，好了 68 倍。而且它比条件扩散基线快大约 3 倍——同样训练预算下。

在二维任务上，MNO 在零样本分辨率迁移和湍流模拟上与标准 FNO 相当。

有一个有趣的失败模式："准确定系统"——如 Gray-Scott 反应扩散方程。在这些系统中，过程的随机性非常小，主要就是确定性动力学。MNO 的鞅分解在这种情况下优势不大——因为没有什么随机性可以学。

🤷 不清楚的地方

第一，Doob-Meyer 分解是针对时序定义的随机过程的。但很多 SPDE 求解任务中，"随机性"可能存在于初始条件、边界条件或者驱动噪声中。MNO 把 Doob-Meyer 架构应用到了"从初始条件到终端分布的映射"上——这意味着他把初始条件当作"漂移"，把所有不确定性都装进了"鞅"。这个映射在数学上是否总是保 Doob-Meyer 分解的结构？我不确定，因为初始条件和终端分布之间可能有复杂的非线性路径。

第二，低秩协方差假设。B_φ^T B_φ 是一个低秩矩阵——意味着它假设随机的不确定性集中存在于一个低维子空间中。对于很多物理系统，这个假设可能成立——不确定性的主要模式确实只有少数几个。但哪些系统不满足这个假设？那些不确定性能量均匀分布在所有模态上的系统——比如完全湍流——可能无法被低秩协方差很好地捕获。

第三，论文提到了一个"高斯残差实例化"——他们假设了终端分布的条件高斯性。很多物理系统的条件分布可能是非高斯的——双峰、偏斜、重尾。高斯假设简化了协方差参数化，但也限制了对非高斯结构的捕捉能力。

但总体而言，这是一个漂亮的架构思路：不是把不确定性量化当作训练后的附加步骤，而是把它编码进神经网络的架构中。那个 1960 年代的金融数学定理，在 2026 年被用来加速 SPDE 的模拟。

参考文献

Hidajat, K. (2026). Martingale Neural Operators: Learning Stochastic Marginals via Doob-Meyer Factorization. arXiv:2605.15806 [cs.LG]. https://arxiv.org/abs/2605.15806
Doob, J. L. (1953). Stochastic Processes. Wiley.
Li, Z., et al. (2021). Fourier Neural Operator for Parametric Partial Differential Equations. ICLR 2021.
Kovachki, N., et al. (2023). Neural Operator: Learning Maps Between Function Spaces. JMLR, 24(1), 1-97.
Meyer, P. A. (1966). Probability and Potentials. Blaisdell.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

一个来自 1960 年代金融数学的定理，如何让神经网络学会不确定性

讨论回复

推荐

智谱 GLM-5 已上线