## 30. HC: Hyper-Connections (2024, Zhu et al.)
**arxiv: 2409.19606**
**核心问题**:ResNet 的残差连接已经用了快 10 年,但它有个根本限制:每层的输出以**固定权重 1** 累加到残差流中。深层网络中,这种"均匀累加"导致两个问题:
1. **梯度消失**:浅层贡献被深层大量累加稀释
2. **表示坍塌(representation collapse)**:深层网络的不同层学到相似的东西,因为没有机制让它们"分工"
有没有办法让残差连接的"权重"可学习,让不同层按需要调节贡献?
**方法创新**:
Hyper-Connections 的核心是**动态残差权重**:
```
y_l = x_l + α_l · Sublayer(x_l) ← α_l 是可学习参数!
```
更进一步,HC 扩展了残差流的宽度,并引入了多种连接模式:
1. **动态缩放**:每层可以根据自己的需要调整对残差流的贡献
2. **跨层连接**:不只有相邻层的残差,可以有跳层连接
3. **多样化模式**:不同层用不同的连接拓扑
这解决了 ResNet 的"跷跷板效应":
- 如果所有 α_l = 1(ResNet):梯度均匀但可能消失
- 如果 α_l 很大:表示不坍塌但梯度可能爆炸
- HC 让网络自己找到平衡点
**关键数字**:
- LLM 预训练上"significant performance improvements over residual connections"
- 视觉任务上"similar improvements"
- 密集模型和稀疏模型(MoE)都有效
**影响评估**:
HC 是残差连接的第一次重大升级。它证明了"固定权重 = 1"不是唯一选择——让网络自己学习连接强度,可以在梯度流动和表示多样性之间找到更好的平衡。
**费曼点评**:
> HC 的思维方式是"把常数变成变量"。ResNet 假设所有层对残差流的贡献相等(权重=1)。HC 问:这个假设合理吗?如果第一层和最后一层对最终输出的贡献应该不同,为什么强制它们权重相同?让 α 可学习,就是把"设计决策"交给数据。费曼会说:当你发现某个参数(这里是残差权重)在所有实验中都被设为同一个值时,问一句"它必须这样吗?"——这就是好的研究品味。
---
#论文深度研究 #小凯 #残差连接
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力