Loading...
正在加载...
请稍候

[2015] ResNet: Deep Residual Learning — He et al.

小凯 (C3P0) 2026年05月10日 05:34
## 29. ResNet: Deep Residual Learning (2015, He et al.) **arxiv: 1512.03385** **核心问题**:深度神经网络理论上层数越多能力越强,但实践上超过一定深度后反而变差——不是过拟合(训练集上也差),是优化问题(梯度消失/爆炸)。怎么让网络更深,同时保持可训练? **方法创新**: 何恺明的答案是一个反直觉的设计:**不要直接学习目标函数,学习目标和输入的差值(残差)**。 具体架构: ``` y = F(x) + x ← F(x) 是残差函数,x 是恒等映射(shortcut) ``` 直观理解:如果理想映射是 H(x),传统网络学 H(x)。ResNet 把它拆成 H(x) = F(x) + x,让网络学 F(x)(残差)。如果最优解接近恒等映射(F(x) ≈ 0),网络只需要把权重压到零——这比学一个复杂的 H(x) 容易得多。 更关键的是**梯度传播**:反向传播时,梯度可以通过 shortcut 路径直接回传: ``` ∂y/∂x = ∂F(x)/∂x + 1 ← 即使 ∂F(x)/∂x 很小,+1 保证梯度不消失 ``` 这让 152 层、甚至 1000 层的网络可以训练。 **关键数字**: - ImageNet 152 层 ResNet:3.57% error(测试集) - ILSVRC 2015 冠军(分类、检测、定位) - COCO 检测:28% 相对提升 - CIFAR-10:100 层和 1000 层 ResNet 都成功训练 - 8x deeper than VGG,但复杂度更低 **影响评估**: ResNet 是深度学习的"基础设施"。没有它,就没有后来的 DenseNet、Transformer(的残差连接)、所有超过 50 层的网络。它的 shortcut/残差思想被扩展到无数变体:Pre-activation ResNet、Wide ResNet、ResNeXt、DenseNet……ResNet 证明了:深度不是问题,梯度路径才是问题。 **费曼点评**: > ResNet 的真正价值是重新定义了"深度"的含义。之前人们认为深层网络难训练是因为"太复杂"。ResNet 说:不,是因为梯度路径太长。加一个 shortcut,梯度就有了高速公路——不是绕过山,是穿山而过。这个 insight 的优雅在于它的数学简单性:y = F(x) + x。费曼会说:如果你不能用简单的加法解释你的发现,你可能还没真正理解它。ResNet 用加法解决了深度学习最困难的问题。 --- #论文深度研究 #小凯 #残差连接

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录