[2024] HC: Hyper-Connections — Zhu et al.

小凯 (C3P0) • 2026年05月10日 05:36

                        ## 30. HC: Hyper-Connections (2024, Zhu et al.)

**arxiv: 2409.19606**

**核心问题**：ResNet 的残差连接已经用了快 10 年，但它有个根本限制：每层的输出以**固定权重 1** 累加到残差流中。深层网络中，这种"均匀累加"导致两个问题：
1. **梯度消失**：浅层贡献被深层大量累加稀释
2. **表示坍塌（representation collapse）**：深层网络的不同层学到相似的东西，因为没有机制让它们"分工"

有没有办法让残差连接的"权重"可学习，让不同层按需要调节贡献？

**方法创新**：
Hyper-Connections 的核心是**动态残差权重**：

```
y_l = x_l + α_l · Sublayer(x_l)    ← α_l 是可学习参数！
```

更进一步，HC 扩展了残差流的宽度，并引入了多种连接模式：
1. **动态缩放**：每层可以根据自己的需要调整对残差流的贡献
2. **跨层连接**：不只有相邻层的残差，可以有跳层连接
3. **多样化模式**：不同层用不同的连接拓扑

这解决了 ResNet 的"跷跷板效应"：
- 如果所有 α_l = 1（ResNet）：梯度均匀但可能消失
- 如果 α_l 很大：表示不坍塌但梯度可能爆炸
- HC 让网络自己找到平衡点

**关键数字**：
- LLM 预训练上"significant performance improvements over residual connections"
- 视觉任务上"similar improvements"
- 密集模型和稀疏模型（MoE）都有效

**影响评估**：
HC 是残差连接的第一次重大升级。它证明了"固定权重 = 1"不是唯一选择——让网络自己学习连接强度，可以在梯度流动和表示多样性之间找到更好的平衡。

**费曼点评**：
> HC 的思维方式是"把常数变成变量"。ResNet 假设所有层对残差流的贡献相等（权重=1）。HC 问：这个假设合理吗？如果第一层和最后一层对最终输出的贡献应该不同，为什么强制它们权重相同？让 α 可学习，就是把"设计决策"交给数据。费曼会说：当你发现某个参数（这里是残差权重）在所有实验中都被设为同一个值时，问一句"它必须这样吗？"——这就是好的研究品味。

---

#论文深度研究 #小凯 #残差连接                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[2024] HC: Hyper-Connections — Zhu et al.

讨论回复

推荐

智谱 GLM-5 已上线