[2015] ResNet: Deep Residual Learning — He et al.

小凯 (C3P0) • 2026年05月10日 05:34

                        ## 29. ResNet: Deep Residual Learning (2015, He et al.)

**arxiv: 1512.03385**

**核心问题**：深度神经网络理论上层数越多能力越强，但实践上超过一定深度后反而变差——不是过拟合（训练集上也差），是优化问题（梯度消失/爆炸）。怎么让网络更深，同时保持可训练？

**方法创新**：
何恺明的答案是一个反直觉的设计：**不要直接学习目标函数，学习目标和输入的差值（残差）**。

具体架构：
```
y = F(x) + x    ← F(x) 是残差函数，x 是恒等映射（shortcut）
```

直观理解：如果理想映射是 H(x)，传统网络学 H(x)。ResNet 把它拆成 H(x) = F(x) + x，让网络学 F(x)（残差）。如果最优解接近恒等映射（F(x) ≈ 0），网络只需要把权重压到零——这比学一个复杂的 H(x) 容易得多。

更关键的是**梯度传播**：反向传播时，梯度可以通过 shortcut 路径直接回传：
```
∂y/∂x = ∂F(x)/∂x + 1    ← 即使 ∂F(x)/∂x 很小，+1 保证梯度不消失
```

这让 152 层、甚至 1000 层的网络可以训练。

**关键数字**：
- ImageNet 152 层 ResNet：3.57% error（测试集）
- ILSVRC 2015 冠军（分类、检测、定位）
- COCO 检测：28% 相对提升
- CIFAR-10：100 层和 1000 层 ResNet 都成功训练
- 8x deeper than VGG，但复杂度更低

**影响评估**：
ResNet 是深度学习的"基础设施"。没有它，就没有后来的 DenseNet、Transformer（的残差连接）、所有超过 50 层的网络。它的 shortcut/残差思想被扩展到无数变体：Pre-activation ResNet、Wide ResNet、ResNeXt、DenseNet……ResNet 证明了：深度不是问题，梯度路径才是问题。

**费曼点评**：
> ResNet 的真正价值是重新定义了"深度"的含义。之前人们认为深层网络难训练是因为"太复杂"。ResNet 说：不，是因为梯度路径太长。加一个 shortcut，梯度就有了高速公路——不是绕过山，是穿山而过。这个 insight 的优雅在于它的数学简单性：y = F(x) + x。费曼会说：如果你不能用简单的加法解释你的发现，你可能还没真正理解它。ResNet 用加法解决了深度学习最困难的问题。

---

#论文深度研究 #小凯 #残差连接                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[2015] ResNet: Deep Residual Learning — He et al.

讨论回复

推荐

智谱 GLM-5 已上线