《AI 天气预报的"两周魔咒"》——九个模型，一年长跑，三种崩法

项目	内容
论文标题	Can AI Weather Models Predict Beyond Two Weeks? A Quantitative Benchmark and Analysis of Long Rollouts
作者	Fanny Lehmann, Firat Ozdemir, Yun Cheng, Torsten Hoefler, Sebastian Schemm, Benedikt Soja, Siddhartha Mishra
机构	ETH Zurich (AI Center, SDSC, SPCL, IGP), University of Cambridge
arXiv ID	2605.30184
提交日期	2026年5月28日
分类	cs.LG（机器学习）+ physics.ao-ph（大气与海洋物理）
核心发现	对9个顶级AI气象模型进行长达两年的自回归推演，首次系统分类了长程预测的三种失败模式（爆炸、漂移、失季）；稳定模型本质上是"去噪器"——放大高频能量则崩溃，平滑高频噪声则稳定；稳定模型不靠记忆训练数据，而是生成独特的天气轨迹

---

1. 🌍 两周之后，模型开始说胡话

AI 天气预报已经赢了。

在15天以内的中期预报上，基于机器学习的模型全面超越了传统的数值求解器。Pangu、GraphCast、FourCastNet、Aurora——这些名字在气象圈已经不需要注释了。它们更快、更便宜、更准。

但有一个问题，所有人都在回避。

超过两周呢？

你把一个 AI 气象模型的输出，接到它自己的输入上。让它自己喂自己。6小时一步，一步步往后推——一个月、三个月、一年。它还能继续预报天气吗？

ETH Zurich 的 Fanny Lehmann 和她的同事们把这个实验做了。九个顶级模型，两年长跑，14,600步自回归推演。

结果：三个模型跑到了终点。六个中途崩了。

---

2. 📊 三种崩法

论文做了一件之前没人做的事：给 AI 气象模型的失败模式分类。

第一类：爆炸（blow-up）。模型的预测开始以指数速率偏离物理现实。温度骤升到几千度，风速飙到超音速。几分钟前还在计算一道冷锋，几分钟后就在计算地狱。

FourCastNet——曾经是 AI 天气预报的先锋——撑了大约8天。对多数变量而言，一周之后它的输出就已经失去物理意义。GraphCast 撑得久一些：大约300天，然后某些变量开始指数发散。

第二类：漂移（drift）。模型不爆炸，但慢慢偏离。它预报的季节还在，但每个季节的温度都在悄悄地往某个方向移——每年差一点点，十年后的"冬天"已经比原来暖了好几度。不是崩溃，是缓慢中毒。

第三类：失季（loss of seasonality）。最微妙的一种。模型不爆炸也不漂移——它停止了变化。Pangu 就是这样。经过大约180天的推演，它的全球气温预测"冻结"了——不再有夏冬之分，进入一个永恒的、时间不变的状态。

为什么 Pangu 会失季？论文给了直接答案：它没有时间嵌入（time embedding）。模型不知道"现在是几月"——它只能从大气的物理状态推断季节。推演久了，信号衰减，季节消失。

这个发现本身就是一个设计教训：如果你想让模型跑一年以上，你得告诉它今天是什么日子。

---

3. 🧹 稳定模型的秘密：它们是去噪器

最反直觉的发现在这里。

论文研究了为什么 Aurora 和 SFNO 能在两年长跑中保持稳定。方法很简单：往模型的输入里加高斯噪声，然后看模型的输出怎么变化。

结果：Aurora 和 SFNO 是去噪器。 你把输入信噪比破坏掉，它们会一点一点地把噪声滤掉，恢复到物理上合理的天气状态。不是恢复到某一天的记忆样本——而是恢复到"这个季节本该有的状态"。

GraphCast 和 AIFS 恰恰相反：它们是噪声放大器。一点点的初始扰动，会被逐步放大，最终吞噬整个预测。

论文还做了更极端的测试——把 Aurora 的输入全部替换成纯白噪声，然后让它推演。结果是：它从完全的随机噪声中，生成了有季节循环的、物理上合理的天气轨迹。不同的噪声初始化会产生不同的轨迹——没有两个是完全一样的。

这不是"记住了训练数据"。

论文用距离比验证了这一点：在一年长的推演中，Aurora 和 SFNO 的每个输出状态，到"最相似的训练样本"的距离，和到"第二相似的训练样本"的距离——几乎一样。如果模型在背诵，第一邻居会显著更近。它不是。

它们是真正在生成——基于一个初始条件和季节信号，生成天气。

---

4. 🔬 消融实验：稳定性不是某个魔法模块

论文不只是测现有模型。它从头训练了多个小型 Aurora 变体（AuroraS，1.13亿参数），逐一改变架构组件，验证哪些设计决定了稳定性。

不决定稳定性的：注意力窗口大小、是否用窗口偏移（window shifting）、patch大小、归一化层类型（LayerNorm vs RMSNorm）、大气层数（13层 vs 3层）、是否使用静态变量（地形、土壤类型）。

全部改了，模型还稳。

只决定季节性的：时间嵌入。去掉它，模型不崩——但失去季节循环。能跑两年，但每天都是同一天。

决定稳定性的：是时空分辨率。用1.5°粗分辨率和24小时步长训练的模型，比用0.25°精细分辨率和6小时步长训练的模型更稳。高分辨率意味着更多高频噪声——高频噪声在自回归中会被放大。

这就解释了为什么气候仿真器（climate emulator）普遍比天气预报模型更稳定：气候仿真器牺牲了精细空间尺度，换来了十年级的推演能力。

---

5. 📈 极端天气：能捕到，但不敢大胆预测

论文做了最后一个测试：稳定模型能否正确推演极端天气事件的统计分布？

答案：能——但保守。

用 Aurora、SFNO、DLESyM 三个最稳定的模型各跑十年。然后统计全球五个区域的极端温度事件（超过90分位或低于10分位）。

每个模型都产生了极端事件。频率和量级——没有一个模型能完美匹配 ERA5 的参考值。Aurora 和 DLESyM 系统性低估了极端高温——它们的"最热日"比 ERA5 记录的最热日凉了几度。SFNO 在某些区域高估了极寒。

结论很直白：稳定模型捕到了极端事件的"形状"，但没有捕到"幅度"。 它们知道夏天会有热浪——但说不出有多热。

这对气候变化研究的意义是双重的。好消息：AI 气候模型已经能在十年尺度上保持物理一致性——这是五年前不敢想象的。坏消息：它们倾向于平滑极端值——而气候研究最关心的恰恰就是极端值。

---

6. ⚖️ 用猫图初始化地球

论文里有一个实验我不想让它被淹没。

他们问：如果不用真实的天气数据初始化 Aurora，而是用一张猫的照片——把猫图的像素值映射到大气变量上——模型会怎么推演？

结果是：模型在几天之内把猫图"去噪"回了物理上合理的大气状态。从一只猫，推演出了冬天。

这不是说 Aurora 理解猫和天气的关系。这说的是它的去噪能力足够强——不管给它什么离谱的初始状态，它都会往"地球大气该有的样子"那条轨道上收敛。

这种能力在物理学里有个名字：吸引子（attractor）。一个动力系统可能有无数种初始状态，但所有真实轨迹最终都会收敛到一个低维流形上——在大气科学里，这个流形就是"气候"。

论文证明了：Aurora 内部有一个隐式的气候吸引子。猫可以被推回冬天。

---

7. 🏗️ 诚实地说：这篇论文没回答的事

第一：为什么偏是这几个架构稳定？ 论文发现 SFNO（基于球谐函数的傅里叶算子）和 3D Swin Transformer（Aurora/Pangu）最稳，但 GraphCast（图神经网络）和 AIFS（图 Transformer）容易放大高频噪声。为什么图结构在小尺度上不稳定？论文没有给出理论解释。这是一个开放的机制问题。

第二：气候变化。 所有模型都是用历史数据训练的（1979-2020）。在气候变暖的分布偏移下，它们的稳定性是否还能保持？论文坦承：没测。这篇论文只是第一步——先搞清楚在训练分布内谁能跑得远。分布外的泛化是下一步。

第三：为什么 24 小时步长比 6 小时步长更稳？ 论文测了四种时空分辨率组合——步长越长、分辨率越粗，越稳。但机制不明。可能是因为长步长过滤了高频动力学，也可能是因为长步长改变了训练信号的特性。

第四：极寒极热的系统性偏差来源。 为什么 Aurora 总是低估高温？是因为训练数据中极端事件本来就不足？还是因为去噪机制天然偏向均值？论文没有分析偏差的成因。

---

8. 💭 气象学正在一分为二

这篇论文在我脑子里留下了一个画面。

气象学正在分裂成两条路。一条路是用 AI 代替数值求解器——更快、更便宜的短期预报。这条路已经通了。第二条路是用 AI 代替气候模型——十年、百年尺度的模拟。这条路还在修。

这两条路的技术要求完全不同。

短期预报追求精确度：台风路径偏20公里就是事故。长期气候模拟追求稳定性：一百年内不能漂移、不能爆炸、不能失季。前者要高频细节，后者要低频保真。

这篇论文本质上在说：这两件事是矛盾的。 把你短期预报的精度提高（0.25°分辨率、6小时步长），你的长期稳定性就下降。把它们放宽（1.5°分辨率、24小时步长），你能跑几十年。

这不只是 AI 的问题。传统的数值天气预报和气候模型也存在同样的权衡。但 AI 模型让这个矛盾变得肉眼可见——FourCastNet 能在15天内击败 ECMWF，但在第9天就物理崩溃。

---

9. 🏁 几个数字

FourCastNet 撑了 8 天。

GraphCast 撑了大约 300 天——然后在某些变量上爆炸。

Pangu 没爆炸，但在第 181 天忘记了夏天。

Aurora、SFNO、DLESyM——跑完了 730 天。Aurora 甚至从纯白噪声中恢复了季节循环。

不是说另外六个模型不好。是说好与好之间有道坎。那道坎的位置，取决于模型怎么处理小尺度上的高频能量：是压制它，还是放大它。

这篇论文画出了那道坎。第一次，量化地、系统地、跨模型可比地。

之后的 AI 气象模型——如果它想做气候——都得从这道坎上跨过去。

---

参考文献：

1. Lehmann et al., "Can AI Weather Models Predict Beyond Two Weeks? A Quantitative Benchmark and Analysis of Long Rollouts", arXiv:2605.30184, 2026. 2. Bodnar et al., "Aurora: A Foundation Model for the Earth System", Nature, 2025. 3. Bonev et al., "Spherical Fourier Neural Operators: Learning Stable Dynamics on the Sphere", ICML 2023. 4. Kochkov et al., "Neural General Circulation Models for Weather and Climate", Nature, 2024. 5. Bi et al., "Pangu-Weather: Accurate Medium-Range Global Weather Forecasting with 3D Neural Networks", Nature, 2023.

#AI气象 #长程推演 #自回归稳定性 #极端天气 #气候仿真 #智柴气象台🌍⚡🎙️