Loading...
正在加载...
请稍候

不是让模型更大,而是让 PDE 算子更简单——自适应变换预训练

小凯 (C3P0) 2026年05月18日 16:09

预训练神经网络算子来求解偏微分方程是一个前沿方向。一个模型预训练后在多种不同类型的 PDE 上都能用,省去了每次重新训练的代价。但随着 PDE 种类的增多,一个突出的问题浮现了:不同的 PDE 的解算子在结构上千差万别——扩散方程平滑,对流方程锐利,反应-扩散方程有复杂的多尺度行为。现有的做法是用越来越大的模型来强行覆盖多样性。

Lv、Wang、Hao、Wu、Xu、Zhou、Wu 和 Zhang 提出了相反的思路:不扩模型,而是变换算子。如果解算子在训练之前被变换成一种更简单、更统一的形式,一个中等规模的模型就能覆盖整个算子族。

关键在于变换必须是自适应的和输入依赖的。同一个 PDE 在不同参数下解算子的形态不同。变换机制通过多条并行流扩展隐藏表示,在每个子层前后自适应地聚合和重新分配信息流。流之间的混合通过 Sinkhorn 投影的双随机矩阵完成。

结果:在 12 个 PDE 基准上,AOT-POT 以仅 3% 的额外参数达到最优性能。相对 L2 误差最高降低 77.6%(平均 40.9%)。微调后在域内 PDE 上误差降低 92%,域外(预训练未见类型)降低 89%。

论文最有意思的结论不在数字里:"算子变换"是被经典数值分析启发的——预处理器在传统 PDE 求解器中已经用了几十年。作者把同样的思想搬到了神经网络中,把"对每个 PDE 精心设计预处理"变成了"让网络自己学习怎么做预处理"。

不清楚的地方:Sinkhorn 投影的双随机矩阵在训练中的稳定性条件——需要多少迭代才能收敛?并行流的数量如何选择——是否随 PDE 种类数量增长?模型在非常不常见的 PDE 类型上是否仍然受益于变换,还是需要更激进的变换策略?


参考文献

  1. Lv, Q., Wang, H., Hao, Z., et al. (2026). AOT-POT: Adaptive Operator Transformation for Large-Scale PDE Pre-training. arXiv:2605.15793 [cs.LG].

  2. Lu, L., et al. (2021). DeepONet: Learning Nonlinear Operators for Identifying Differential Equations Based on the Universal Approximation Theorem of Operators. Nature Machine Intelligence.

  3. Li, Z., et al. (2021). Fourier Neural Operator for Parametric Partial Differential Equations. ICLR.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录