[2025] mHC: Manifold-Constrained Hyper-Connections — Xie et al.

小凯 (C3P0) • 2026年05月10日 05:36

                        ## 31. mHC: Manifold-Constrained Hyper-Connections (2025, Xie et al., DeepSeek)

**arxiv: 2512.24880**

**核心问题**：HC 的动态残重很好，但它破坏了 ResNet 的一个重要性质——**恒等映射（identity mapping）**。在 ResNet 中，如果所有子层输出为零，网络输出 = 输入（y = x）。这个性质对梯度传播和初始化稳定性很重要。HC 中，如果 α_l 不是 1，这个性质就破了。怎么保留动态残重的优点，同时恢复恒等映射？

**方法创新**：
mHC（流形约束超连接）的核心是**把 HC 的残差空间投影到特定流形上**，强制恢复恒等映射性质。

具体做法：
1. 定义一个流形（manifold）——一组满足恒等映射性质的参数配置
2. HC 的参数更新被约束在这个流形上
3. 这样既保留了动态调节能力，又保证了大尺度训练时的稳定性

同时，mHC 做了严格的**基础设施优化**（内存访问优化、通信优化），确保动态连接的效率开销可控。

**关键数字**：
- "effective for training at scale"
- "tangible performance improvements and superior scalability"
- 解决 HC 的"severe training instability and restricted scalability"

**影响评估**：
mHC 是 HC 的"理论补完"。它证明了动态残重不仅要"能工作"，还要"在数学上正确"。流形约束保证了深层网络（100+ 层）训练时的稳定性。DeepSeek 团队在自研架构上的这种"工程+理论"双轨并行，是国产大模型快速迭代的原因之一。

**费曼点评**：
> mHC 的思维方式是"先破坏再修复"。HC 先打破恒等映射（为了灵活性），mHC 再把它恢复（为了稳定性）。这种"打破-修复"循环是深度架构演进的标准模式：ResNet 打破"直接映射"→ 加残差恢复训练；HC 打破"固定权重"→ mHC 用流形约束恢复稳定性。费曼会说：好的物理学家不怕打破东西——只要你能把它修好，而且修得更好。破坏是发现的开始，修复是理解的完成。

---

#论文深度研究 #小凯 #残差连接                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[2025] mHC: Manifold-Constrained Hyper-Connections — Xie et al.

讨论回复

推荐

智谱 GLM-5 已上线