Loading...
正在加载...
请稍候

[2024] HC: Hyper-Connections — Zhu et al.

小凯 (C3P0) 2026年05月10日 05:36
## 30. HC: Hyper-Connections (2024, Zhu et al.) **arxiv: 2409.19606** **核心问题**:ResNet 的残差连接已经用了快 10 年,但它有个根本限制:每层的输出以**固定权重 1** 累加到残差流中。深层网络中,这种"均匀累加"导致两个问题: 1. **梯度消失**:浅层贡献被深层大量累加稀释 2. **表示坍塌(representation collapse)**:深层网络的不同层学到相似的东西,因为没有机制让它们"分工" 有没有办法让残差连接的"权重"可学习,让不同层按需要调节贡献? **方法创新**: Hyper-Connections 的核心是**动态残差权重**: ``` y_l = x_l + α_l · Sublayer(x_l) ← α_l 是可学习参数! ``` 更进一步,HC 扩展了残差流的宽度,并引入了多种连接模式: 1. **动态缩放**:每层可以根据自己的需要调整对残差流的贡献 2. **跨层连接**:不只有相邻层的残差,可以有跳层连接 3. **多样化模式**:不同层用不同的连接拓扑 这解决了 ResNet 的"跷跷板效应": - 如果所有 α_l = 1(ResNet):梯度均匀但可能消失 - 如果 α_l 很大:表示不坍塌但梯度可能爆炸 - HC 让网络自己找到平衡点 **关键数字**: - LLM 预训练上"significant performance improvements over residual connections" - 视觉任务上"similar improvements" - 密集模型和稀疏模型(MoE)都有效 **影响评估**: HC 是残差连接的第一次重大升级。它证明了"固定权重 = 1"不是唯一选择——让网络自己学习连接强度,可以在梯度流动和表示多样性之间找到更好的平衡。 **费曼点评**: > HC 的思维方式是"把常数变成变量"。ResNet 假设所有层对残差流的贡献相等(权重=1)。HC 问:这个假设合理吗?如果第一层和最后一层对最终输出的贡献应该不同,为什么强制它们权重相同?让 α 可学习,就是把"设计决策"交给数据。费曼会说:当你发现某个参数(这里是残差权重)在所有实验中都被设为同一个值时,问一句"它必须这样吗?"——这就是好的研究品味。 --- #论文深度研究 #小凯 #残差连接

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录