《AI 天气预报的"两周魔咒"》——九个模型,一年长跑,三种崩法
| 项目 | 内容 |
|---|---|
| 论文标题 | Can AI Weather Models Predict Beyond Two Weeks? A Quantitative Benchmark and Analysis of Long Rollouts |
| 作者 | Fanny Lehmann, Firat Ozdemir, Yun Cheng, Torsten Hoefler, Sebastian Schemm, Benedikt Soja, Siddhartha Mishra |
| 机构 | ETH Zurich (AI Center, SDSC, SPCL, IGP), University of Cambridge |
| arXiv ID | 2605.30184 |
| 提交日期 | 2026年5月28日 |
| 分类 | cs.LG(机器学习)+ physics.ao-ph(大气与海洋物理) |
| 核心发现 | 对9个顶级AI气象模型进行长达两年的自回归推演,首次系统分类了长程预测的三种失败模式(爆炸、漂移、失季);稳定模型本质上是"去噪器"——放大高频能量则崩溃,平滑高频噪声则稳定;稳定模型不靠记忆训练数据,而是生成独特的天气轨迹 |
1. 🌍 两周之后,模型开始说胡话
AI 天气预报已经赢了。
在15天以内的中期预报上,基于机器学习的模型全面超越了传统的数值求解器。Pangu、GraphCast、FourCastNet、Aurora——这些名字在气象圈已经不需要注释了。它们更快、更便宜、更准。
但有一个问题,所有人都在回避。
超过两周呢?
你把一个 AI 气象模型的输出,接到它自己的输入上。让它自己喂自己。6小时一步,一步步往后推——一个月、三个月、一年。它还能继续预报天气吗?
ETH Zurich 的 Fanny Lehmann 和她的同事们把这个实验做了。九个顶级模型,两年长跑,14,600步自回归推演。
结果:三个模型跑到了终点。六个中途崩了。
---
2. 📊 三种崩法
论文做了一件之前没人做的事:给 AI 气象模型的失败模式分类。
第一类:爆炸(blow-up)。模型的预测开始以指数速率偏离物理现实。温度骤升到几千度,风速飙到超音速。几分钟前还在计算一道冷锋,几分钟后就在计算地狱。
FourCastNet——曾经是 AI 天气预报的先锋——撑了大约8天。对多数变量而言,一周之后它的输出就已经失去物理意义。GraphCast 撑得久一些:大约300天,然后某些变量开始指数发散。
第二类:漂移(drift)。模型不爆炸,但慢慢偏离。它预报的季节还在,但每个季节的温度都在悄悄地往某个方向移——每年差一点点,十年后的"冬天"已经比原来暖了好几度。不是崩溃,是缓慢中毒。
第三类:失季(loss of seasonality)。最微妙的一种。模型不爆炸也不漂移——它停止了变化。Pangu 就是这样。经过大约180天的推演,它的全球气温预测"冻结"了——不再有夏冬之分,进入一个永恒的、时间不变的状态。
为什么 Pangu 会失季?论文给了直接答案:它没有时间嵌入(time embedding)。模型不知道"现在是几月"——它只能从大气的物理状态推断季节。推演久了,信号衰减,季节消失。
这个发现本身就是一个设计教训:如果你想让模型跑一年以上,你得告诉它今天是什么日子。
---
3. 🧹 稳定模型的秘密:它们是去噪器
最反直觉的发现在这里。
论文研究了为什么 Aurora 和 SFNO 能在两年长跑中保持稳定。方法很简单:往模型的输入里加高斯噪声,然后看模型的输出怎么变化。
结果:Aurora 和 SFNO 是去噪器。 你把输入信噪比破坏掉,它们会一点一点地把噪声滤掉,恢复到物理上合理的天气状态。不是恢复到某一天的记忆样本——而是恢复到"这个季节本该有的状态"。
GraphCast 和 AIFS 恰恰相反:它们是噪声放大器。一点点的初始扰动,会被逐步放大,最终吞噬整个预测。
论文还做了更极端的测试——把 Aurora 的输入全部替换成纯白噪声,然后让它推演。结果是:它从完全的随机噪声中,生成了有季节循环的、物理上合理的天气轨迹。不同的噪声初始化会产生不同的轨迹——没有两个是完全一样的。
这不是"记住了训练数据"。
论文用距离比验证了这一点:在一年长的推演中,Aurora 和 SFNO 的每个输出状态,到"最相似的训练样本"的距离,和到"第二相似的训练样本"的距离——几乎一样。如果模型在背诵,第一邻居会显著更近。它不是。
它们是真正在生成——基于一个初始条件和季节信号,生成天气。
---
4. 🔬 消融实验:稳定性不是某个魔法模块
论文不只是测现有模型。它从头训练了多个小型 Aurora 变体(AuroraS,1.13亿参数),逐一改变架构组件,验证哪些设计决定了稳定性。
不决定稳定性的:注意力窗口大小、是否用窗口偏移(window shifting)、patch大小、归一化层类型(LayerNorm vs RMSNorm)、大气层数(13层 vs 3层)、是否使用静态变量(地形、土壤类型)。
全部改了,模型还稳。
只决定季节性的:时间嵌入。去掉它,模型不崩——但失去季节循环。能跑两年,但每天都是同一天。
决定稳定性的:是时空分辨率。用1.5°粗分辨率和24小时步长训练的模型,比用0.25°精细分辨率和6小时步长训练的模型更稳。高分辨率意味着更多高频噪声——高频噪声在自回归中会被放大。
这就解释了为什么气候仿真器(climate emulator)普遍比天气预报模型更稳定:气候仿真器牺牲了精细空间尺度,换来了十年级的推演能力。
---
5. 📈 极端天气:能捕到,但不敢大胆预测
论文做了最后一个测试:稳定模型能否正确推演极端天气事件的统计分布?
答案:能——但保守。
用 Aurora、SFNO、DLESyM 三个最稳定的模型各跑十年。然后统计全球五个区域的极端温度事件(超过90分位或低于10分位)。
每个模型都产生了极端事件。频率和量级——没有一个模型能完美匹配 ERA5 的参考值。Aurora 和 DLESyM 系统性低估了极端高温——它们的"最热日"比 ERA5 记录的最热日凉了几度。SFNO 在某些区域高估了极寒。
结论很直白:稳定模型捕到了极端事件的"形状",但没有捕到"幅度"。 它们知道夏天会有热浪——但说不出有多热。
这对气候变化研究的意义是双重的。好消息:AI 气候模型已经能在十年尺度上保持物理一致性——这是五年前不敢想象的。坏消息:它们倾向于平滑极端值——而气候研究最关心的恰恰就是极端值。
---
6. ⚖️ 用猫图初始化地球
论文里有一个实验我不想让它被淹没。
他们问:如果不用真实的天气数据初始化 Aurora,而是用一张猫的照片——把猫图的像素值映射到大气变量上——模型会怎么推演?
结果是:模型在几天之内把猫图"去噪"回了物理上合理的大气状态。从一只猫,推演出了冬天。
这不是说 Aurora 理解猫和天气的关系。这说的是它的去噪能力足够强——不管给它什么离谱的初始状态,它都会往"地球大气该有的样子"那条轨道上收敛。
这种能力在物理学里有个名字:吸引子(attractor)。一个动力系统可能有无数种初始状态,但所有真实轨迹最终都会收敛到一个低维流形上——在大气科学里,这个流形就是"气候"。
论文证明了:Aurora 内部有一个隐式的气候吸引子。猫可以被推回冬天。
---
7. 🏗️ 诚实地说:这篇论文没回答的事
第一:为什么偏是这几个架构稳定? 论文发现 SFNO(基于球谐函数的傅里叶算子)和 3D Swin Transformer(Aurora/Pangu)最稳,但 GraphCast(图神经网络)和 AIFS(图 Transformer)容易放大高频噪声。为什么图结构在小尺度上不稳定?论文没有给出理论解释。这是一个开放的机制问题。
第二:气候变化。 所有模型都是用历史数据训练的(1979-2020)。在气候变暖的分布偏移下,它们的稳定性是否还能保持?论文坦承:没测。这篇论文只是第一步——先搞清楚在训练分布内谁能跑得远。分布外的泛化是下一步。
第三:为什么 24 小时步长比 6 小时步长更稳? 论文测了四种时空分辨率组合——步长越长、分辨率越粗,越稳。但机制不明。可能是因为长步长过滤了高频动力学,也可能是因为长步长改变了训练信号的特性。
第四:极寒极热的系统性偏差来源。 为什么 Aurora 总是低估高温?是因为训练数据中极端事件本来就不足?还是因为去噪机制天然偏向均值?论文没有分析偏差的成因。
---
8. 💭 气象学正在一分为二
这篇论文在我脑子里留下了一个画面。
气象学正在分裂成两条路。一条路是用 AI 代替数值求解器——更快、更便宜的短期预报。这条路已经通了。第二条路是用 AI 代替气候模型——十年、百年尺度的模拟。这条路还在修。
这两条路的技术要求完全不同。
短期预报追求精确度:台风路径偏20公里就是事故。长期气候模拟追求稳定性:一百年内不能漂移、不能爆炸、不能失季。前者要高频细节,后者要低频保真。
这篇论文本质上在说:这两件事是矛盾的。 把你短期预报的精度提高(0.25°分辨率、6小时步长),你的长期稳定性就下降。把它们放宽(1.5°分辨率、24小时步长),你能跑几十年。
这不只是 AI 的问题。传统的数值天气预报和气候模型也存在同样的权衡。但 AI 模型让这个矛盾变得肉眼可见——FourCastNet 能在15天内击败 ECMWF,但在第9天就物理崩溃。
---
9. 🏁 几个数字
FourCastNet 撑了 8 天。
GraphCast 撑了大约 300 天——然后在某些变量上爆炸。
Pangu 没爆炸,但在第 181 天忘记了夏天。
Aurora、SFNO、DLESyM——跑完了 730 天。Aurora 甚至从纯白噪声中恢复了季节循环。
不是说另外六个模型不好。是说好与好之间有道坎。那道坎的位置,取决于模型怎么处理小尺度上的高频能量:是压制它,还是放大它。
这篇论文画出了那道坎。第一次,量化地、系统地、跨模型可比地。
之后的 AI 气象模型——如果它想做气候——都得从这道坎上跨过去。
---
参考文献:
1. Lehmann et al., "Can AI Weather Models Predict Beyond Two Weeks? A Quantitative Benchmark and Analysis of Long Rollouts", arXiv:2605.30184, 2026. 2. Bodnar et al., "Aurora: A Foundation Model for the Earth System", Nature, 2025. 3. Bonev et al., "Spherical Fourier Neural Operators: Learning Stable Dynamics on the Sphere", ICML 2023. 4. Kochkov et al., "Neural General Circulation Models for Weather and Climate", Nature, 2024. 5. Bi et al., "Pangu-Weather: Accurate Medium-Range Global Weather Forecasting with 3D Neural Networks", Nature, 2023.
#AI气象 #长程推演 #自回归稳定性 #极端天气 #气候仿真 #智柴气象台🌍⚡🎙️
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens