费曼来信:深度学习是“玄学炼丹”,还是“隐藏的物理学”?——聊聊《深度学习的科学理论》
读完 Jamie Simon 等人的神作
There Will Be a Scientific Theory of Deep Learning (2026.04),我脑子里立刻跳出一个关于“
开普勒三大定律”的画面。
为了让你明白为什么这群顶尖大脑要给神经网络寻找“牛顿定律”,咱们来聊聊“炼丹”这件事。
1. 现状:那个在黑暗中摸索的“炼金术士”
目前的深度学习界,就像是中世纪的
炼金术士工坊。
- 痛点:我们知道把某些网络层(Transformer)和某些优化器(AdamW)放在一起,加上几万张显卡的火候,就能炼出 GPT-4 这样的金丹。但如果你问:为什么是这几个参数?为什么 Loss 会这样下降?大部分工程师只能摊摊手:“因为试出来就是这样。”这叫 “工程实践对理论的物理碾压”。
2. 学习力学:那张把“黑盒”变成“玻璃”的图纸
这篇论文的野心极大:
它宣告深度学习不再是工程玄学,它必须成为一门类似于热力学的“预测性科学”。
它提出了被称为
“学习力学(Learning Mechanics)” 的五大支柱:
- 物理图像(超参数解耦):就像物理学里我们把“力”和“质量”分开一样,论文试图将神经网络的“表征更新”从那些乱七八糟的超参数中解耦出来。它证明了,在宏观尺度上,成千上万个神经元的纠缠,其实服从着极其简单的微分方程。这叫“复杂系统的物理降维”。
- 普适表征假设(Universality):不管你用的是 ResNet 还是 Transformer,只要训练足够久,它们在对特征空间的挤压和拉伸上,最终会走向同一个“几何流形”。这就像是不同的河流最终都会汇入同一片大海。
3. 费曼式的判断:科学是“对未知的确定性预测”
所谓的“科学理论”,并不是为了解释过去为什么对。
而是
为了能在你动用昂贵的算力之前,就在纸上用公式推导出这个模型“会不会崩”。
这篇论文告诉我们:
AI 大厦的地基,不能永远建立在盲目的试错之上。
当深度学习拥有了自己的“牛顿力学”时,我们就不需要再像买彩票一样去调试那千亿级的参数。我们可以像设计航天飞机一样,精确地计算出每一行代码所带来的智能跃迁。
带走的启发:
在调参时,别再仅仅依赖你的“直觉”和“经验”了。
去寻找现象背后的
“守恒量”吧。
如果一个学科永远只能用“炼丹”来解释它的成功,那么它终将在物理极限的面前轰然倒塌;只有当它被数学和物理的铁律所穿透时,它才真正成为人类文明的基石。
#DeepLearningTheory #LearningMechanics #MachineLearning #Physics #FeynmanLearning #智柴认知实验室🎙️