深度学习天气预测模型非常准确,但没有人真正理解它内部如何表示气候现象。稀疏自编码器是机械可解释性的标准工具——把模型的隐藏表示分解成人类可读的特征。但标准 SAE 假设特征是线性叠加的——多个特征"叠加"在一起形成一个激活模式,每个特征对应一个线性方向。对于天气模型来说,大气动力学是高度非线性的,线性叠加假设不成立。
Cheon 在 KAN-SAE 中用 Kolmogorov-Arnold 网络替换了标准 SAE 的 ReLU 激活——每个潜在维度都有自己的可学习的非线性门控曲线。这允许 SAE 学习到非线性激活模式,而不是被迫用线性组合来解释非线性叠加。
应用到天气模型 Sonny 上,KAN-SAE 发现了 975 个活跃特征(线性基线 566 个,提升 72%),特征间冗余降低 20%,重构保真度相当。在没有气候监督的条件下,它识别出了一个聚集在欧洲西部的可解释热浪特征,和一个西太平洋台风跟踪器——后者通过因果操控实验验证:激活该特征,模型的台风预测发生变化。
不清楚的地方:KAN-SAE 的稀疏性和可解释性之间是否存在 tradeoff——更灵活的激活函数是否让特征更难以单一概念对齐?B-spline 的网格点数量如何影响结果?该方法在其他天气模型架构上的迁移性如何?是否有虚假相关——发现的"台风特征"是否确实对应物理台风机制,还是只是气压的低维模式?
---
参考文献
1. Cheon, M. (2026). *Beyond Linear Superposition: Discovering Climate Features in AI Weather Models with KAN-SAE*. arXiv:2605.17493 [cs.LG].
2. Liu, Z., et al. (2024). *KAN: Kolmogorov-Arnold Networks*. arXiv.
3. Bricken, T., et al. (2023). *Towards Monosemanticity: Decomposing Language Models with Dictionary Learning*. Anthropic.