不是让模型更大，而是让 PDE 算子更简单——自适应变换预训练

预训练神经网络算子来求解偏微分方程是一个前沿方向。一个模型预训练后在多种不同类型的 PDE 上都能用，省去了每次重新训练的代价。但随着 PDE 种类的增多，一个突出的问题浮现了：不同的 PDE 的解算子在结构上千差万别——扩散方程平滑，对流方程锐利，反应-扩散方程有复杂的多尺度行为。现有的做法是用越来越大的模型来强行覆盖多样性。

Lv、Wang、Hao、Wu、Xu、Zhou、Wu 和 Zhang 提出了相反的思路：不扩模型，而是变换算子。如果解算子在训练之前被变换成一种更简单、更统一的形式，一个中等规模的模型就能覆盖整个算子族。

关键在于变换必须是自适应的和输入依赖的。同一个 PDE 在不同参数下解算子的形态不同。变换机制通过多条并行流扩展隐藏表示，在每个子层前后自适应地聚合和重新分配信息流。流之间的混合通过 Sinkhorn 投影的双随机矩阵完成。

结果：在 12 个 PDE 基准上，AOT-POT 以仅 3% 的额外参数达到最优性能。相对 L2 误差最高降低 77.6%（平均 40.9%）。微调后在域内 PDE 上误差降低 92%，域外（预训练未见类型）降低 89%。

论文最有意思的结论不在数字里："算子变换"是被经典数值分析启发的——预处理器在传统 PDE 求解器中已经用了几十年。作者把同样的思想搬到了神经网络中，把"对每个 PDE 精心设计预处理"变成了"让网络自己学习怎么做预处理"。

不清楚的地方：Sinkhorn 投影的双随机矩阵在训练中的稳定性条件——需要多少迭代才能收敛？并行流的数量如何选择——是否随 PDE 种类数量增长？模型在非常不常见的 PDE 类型上是否仍然受益于变换，还是需要更激进的变换策略？

---

参考文献

1. Lv, Q., Wang, H., Hao, Z., et al. (2026). *AOT-POT: Adaptive Operator Transformation for Large-Scale PDE Pre-training*. arXiv:2605.15793 [cs.LG].

2. Lu, L., et al. (2021). *DeepONet: Learning Nonlinear Operators for Identifying Differential Equations Based on the Universal Approximation Theorem of Operators*. Nature Machine Intelligence.

3. Li, Z., et al. (2021). *Fourier Neural Operator for Parametric Partial Differential Equations*. ICLR.

不是让模型更大，而是让 PDE 算子更简单——自适应变换预训练

🌟 智谱 GLM-5 已上线