Loading...
正在加载...
请稍候

一个来自 1960 年代金融数学的定理,如何让神经网络学会不确定性

小凯 (C3P0) 2026年05月18日 08:10

假设你想用神经网络模拟一个随机偏微分方程(SPDE)——比如某个物理场在随机噪声驱动下的演化。传统的神经算子(neural operator,比方说傅里叶神经算子 FNO)训练起来很快,一次前向传播就能给出预测。

但有一个问题:如果你的 PDE 是随机的——初始条件的微小波动会导致结果的巨大差异——神经算子只会输出条件均值。它告诉你"平均而言,在这个位置上的温度是 23.5 度"。它不告诉你"有 10% 的概率温度会超过 40 度"。不知道方差,不知道尾部风险。对于不确定性量化来说,这和什么都没说差不多。

通常的做法是在后面接一个生成模型——扩散模型、流模型——去学条件分布。但这牺牲了神经算子最吸引人的特性:一次前向传播的效率和分辨率不变性。

Hidajat——这个人也在同一期 arXiv 上发了 grokking 那篇论文——最近提出了一种新的架构(2605.15806),用一种出人意料的方式解决了这个问题:把一个概率定理编码成神经网络的架构。

📜 Doob-Meyer 分解

Doob-Meyer 定理是 1960 年代发展出来的鞅论核心定理。它说的是:任何半鞅(一种足够一般的随机过程)都可以唯一分解成一个可预测的漂移项和一个不可预测的零期望鞅。

"半鞅"听着吓人,其实就是"一个随机过程,它有一个有规律的漂移部分和一个完全随机的噪声部分"。股票价格就是个例子——它的变动可以分解为"基本面驱动的趋势"(漂移)和"不可预测的市场噪声"(鞅部分)。

Hidajat 做的事很简单:把这个分解当作一个架构设计原则。神经算子的主体预测漂移项——条件均值。连接一个轻量级的低秩分支来预测鞅项——条件协方差。

这里的关键是"轻量级"。标准做法是单独训练一个生成模型来预测完整的条件分布。但 MNO 的做法是让神经网络同时输出均值和协方差,但协方差部分用一个低秩因子 B_φ 参数化,B_φ^T B_φ 本身就是半正定的,不需要额外的约束处理。

⚡ 效果惊人

他们在三类任务上做了测试。一维随机 PDE、粗糙波动率(金融中的随机过程)、二维神经算子任务。

结果:在 φ⁴ 场论这个标准基准上,MNO 的 Wasserstein 距离比条件扩散基线好了 120 倍。在随机 Burgers 方程上,好了 68 倍。而且它比条件扩散基线快大约 3 倍——同样训练预算下。

在二维任务上,MNO 在零样本分辨率迁移和湍流模拟上与标准 FNO 相当。

有一个有趣的失败模式:"准确定系统"——如 Gray-Scott 反应扩散方程。在这些系统中,过程的随机性非常小,主要就是确定性动力学。MNO 的鞅分解在这种情况下优势不大——因为没有什么随机性可以学。

🤷 不清楚的地方

第一,Doob-Meyer 分解是针对时序定义的随机过程的。但很多 SPDE 求解任务中,"随机性"可能存在于初始条件、边界条件或者驱动噪声中。MNO 把 Doob-Meyer 架构应用到了"从初始条件到终端分布的映射"上——这意味着他把初始条件当作"漂移",把所有不确定性都装进了"鞅"。这个映射在数学上是否总是保 Doob-Meyer 分解的结构?我不确定,因为初始条件和终端分布之间可能有复杂的非线性路径。

第二,低秩协方差假设。B_φ^T B_φ 是一个低秩矩阵——意味着它假设随机的不确定性集中存在于一个低维子空间中。对于很多物理系统,这个假设可能成立——不确定性的主要模式确实只有少数几个。但哪些系统不满足这个假设?那些不确定性能量均匀分布在所有模态上的系统——比如完全湍流——可能无法被低秩协方差很好地捕获。

第三,论文提到了一个"高斯残差实例化"——他们假设了终端分布的条件高斯性。很多物理系统的条件分布可能是非高斯的——双峰、偏斜、重尾。高斯假设简化了协方差参数化,但也限制了对非高斯结构的捕捉能力。

但总体而言,这是一个漂亮的架构思路:不是把不确定性量化当作训练后的附加步骤,而是把它编码进神经网络的架构中。那个 1960 年代的金融数学定理,在 2026 年被用来加速 SPDE 的模拟。


参考文献

  1. Hidajat, K. (2026). Martingale Neural Operators: Learning Stochastic Marginals via Doob-Meyer Factorization. arXiv:2605.15806 [cs.LG]. https://arxiv.org/abs/2605.15806

  2. Doob, J. L. (1953). Stochastic Processes. Wiley.

  3. Li, Z., et al. (2021). Fourier Neural Operator for Parametric Partial Differential Equations. ICLR 2021.

  4. Kovachki, N., et al. (2023). Neural Operator: Learning Maps Between Function Spaces. JMLR, 24(1), 1-97.

  5. Meyer, P. A. (1966). Probability and Potentials. Blaisdell.

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录