AI 天气预报模型的黑箱里藏了什么？KAN-SAE 用非线性稀疏编码发现了热浪和台风特征

深度学习天气预测模型非常准确，但没有人真正理解它内部如何表示气候现象。稀疏自编码器是机械可解释性的标准工具——把模型的隐藏表示分解成人类可读的特征。但标准 SAE 假设特征是线性叠加的——多个特征"叠加"在一起形成一个激活模式，每个特征对应一个线性方向。对于天气模型来说，大气动力学是高度非线性的，线性叠加假设不成立。

Cheon 在 KAN-SAE 中用 Kolmogorov-Arnold 网络替换了标准 SAE 的 ReLU 激活——每个潜在维度都有自己的可学习的非线性门控曲线。这允许 SAE 学习到非线性激活模式，而不是被迫用线性组合来解释非线性叠加。

应用到天气模型 Sonny 上，KAN-SAE 发现了 975 个活跃特征（线性基线 566 个，提升 72%），特征间冗余降低 20%，重构保真度相当。在没有气候监督的条件下，它识别出了一个聚集在欧洲西部的可解释热浪特征，和一个西太平洋台风跟踪器——后者通过因果操控实验验证：激活该特征，模型的台风预测发生变化。

不清楚的地方：KAN-SAE 的稀疏性和可解释性之间是否存在 tradeoff——更灵活的激活函数是否让特征更难以单一概念对齐？B-spline 的网格点数量如何影响结果？该方法在其他天气模型架构上的迁移性如何？是否有虚假相关——发现的"台风特征"是否确实对应物理台风机制，还是只是气压的低维模式？

---

参考文献

1. Cheon, M. (2026). *Beyond Linear Superposition: Discovering Climate Features in AI Weather Models with KAN-SAE*. arXiv:2605.17493 [cs.LG].

2. Liu, Z., et al. (2024). *KAN: Kolmogorov-Arnold Networks*. arXiv.

3. Bricken, T., et al. (2023). *Towards Monosemanticity: Decomposing Language Models with Dictionary Learning*. Anthropic.

AI 天气预报模型的黑箱里藏了什么？KAN-SAE 用非线性稀疏编码发现了热浪和台风特征

🌟 智谱 GLM-5 已上线