HyperP：为什么把权重限制在球面上，能让大模型训练更稳定？

> 想象你在爬山。传统的优化方法像是在一个无边无际的平原上行走——你可以走得很快，但也可能越走越远，甚至迷失方向。 > > 超球面优化则像是在一个巨大球体的表面上行走。你永远在这个球面上，不会掉下去，也不会飞出去。每一步都被自然地限制在一个可控的范围内。 > > 这就是 HyperP 的核心思想。

---

一、大模型训练的困境

规模化的诅咒

大语言模型（LLM）的训练是一场规模化的军备竞赛：

参数从 1B 增长到 1T（1000 倍）
训练数据从 100B token 增长到 10T（100 倍）
计算量从 10²¹ FLOPs 增长到 10²⁴ FLOPs（1000 倍）

但规模化带来了一个致命问题：不稳定性。

训练崩溃的日常

在大模型训练中，以下场景屡见不鲜：

1. Logit 爆炸：注意力权重或路由器权重的 logit 值变得极大，导致 softmax 输出趋于 one-hot 2. 激活异常值：某些隐藏状态元素突然变得极大（>5σ），破坏量化并导致梯度爆炸 3. Loss 尖峰：训练过程中损失突然飙升，模型"崩溃" 4. Z-loss 困境：需要额外的正则化项来约束 log-sum-exp，但这又引入了新的超参数

超参数地狱

现有方法（如 AdamW + μP/μP++）需要在多个维度上仔细调优：

超参数	依赖关系	复杂性
学习率 η	与模型宽度、深度、训练时长相关	高
权重衰减 λ	与学习率、训练时长、模型宽度相关	极高
批量大小 B	存在临界批量大小阈值	中
Z-loss 系数	用于控制 logit 爆炸	中

更糟糕的是，这些超参数的最优值会随着规模变化而变化。在小模型上调好的参数，在大模型上可能完全失效。

---

二、超球面优化：把球面作为约束

核心思想

超球面优化的核心是一个简单的几何约束：

||W||_F = C  (Frobenius 范数固定)

每次梯度更新后，权重矩阵被重新投影回这个固定半径的球面上：

W ← C · (W - η·G) / ||W - η·G||_F

这就像是给权重套上了一个"紧身衣"——它们可以在球面上自由移动，但永远不能离开这个球面。

为什么这是有用的？

直觉 1：自然约束

在标准训练中，权重范数可以无限增长（Softmax 的平移不变性允许这一点）。这导致了 logit 爆炸和激活异常值。

在超球面上，输出幅度自然有界：

||Wx||₂ ≤ ||W||_F · ||x||₂ = C · ||x||₂

这意味着 logit 的幅度被结构性限制，不需要额外的 z-loss。

直觉 2：消除权重衰减

这是一个令人惊讶的理论结果：

定理：在 Frobenius 球上，权重衰减是一阶无操作（first-order no-op）。

证明概要：

权重更新 Δ = -η·G - η·λ·W（包含权重衰减项）
投影到切空间后：Π_T(Δ) = -η·Π_T(G)（因为 Π_T(W) = 0）
权重衰减项在切向分量中完全消失

这意味着什么？

权重衰减这个臭名昭著的超参数可以被完全消除。你不再需要为不同规模、不同架构调整 λ。

---

三、HyperP：超球面参数化框架

宽度缩放

在 μP（最大更新参数化）中，宽度缩放需要学习率按 1/w 缩放。

在 HyperP 中，Frobenius 范数约束自然保持了宽度稳定性：

||W||_rms = C / √d_in   (与宽度无关)

结果：无需显式的 1/w 学习率缩放。

深度缩放

这是论文中最微妙的发现。

原始 MuonH 论文声称该优化器"固有深度可传输"（inherently depth-transferable）。但本文作者发现：

深度-μP 仍然是必要的。

理论分析表明，在残差网络中：

配置	学习率缩放	结果
仅权重归一化	η = O(1)	O(1) 函数空间更新
权重+更新归一化	η = O(1/√L)	需要深度-μP

实验验证（d ∈ {8, 12, 16, 20, 24}）：

无 Depth-μP：最优学习率从 d=8 时的 0.016 下降到 d=24 时的 0.008
有 Depth-μP：最优学习率保持在 0.014-0.016 之间

两者在各自最优学习率下达到相似的损失，但 Depth-μP 使得单一学习率可以跨深度传输。

数据缩放：魔法指数 0.32

通过在小模型（d=8, 208M 参数）上细致扫描学习率，作者发现：

η* = 24.27 · T^(-0.32)

其中 T 是训练 token 数。

这个指数 0.32 与 AdamW 的先前研究结果完全一致。

这表明"魔法指数"可能是梯度优化的普遍性质，与具体优化器无关。

MoE 粒度缩放与 SqrtGate

在 Mixture-of-Experts (MoE) 中，一个关键问题是：Top-k 门控会改变输出幅度。

经典门控的问题：

当 k 个专家被选中且权重接近均匀（g_i ≈ 1/k）时：

||y_route||_rms ≈ r/√k

输出幅度随 k 增加而衰减！

SqrtGate 解决方案：

用 √g_i 替代 g_i：

y_route' = Σ_{i=1}^k √g_i · E_i(x)

在等 RMS、弱相关假设下：

||y_route'||_rms ≈ r  (与 k 无关)

实验结果：

k	经典门控 Loss	SqrtGate Loss	改进
2	2.4306	2.4131	-0.0175
8	2.3220	2.3156	-0.0064
32	2.3186	2.3096	-0.0090

SqrtGate 不仅改善了性能，还将路由器 Z-value 峰值降低了 5 倍。

---

四、可传输稳定性：小规模的调参，大规模的稳定

理论承诺 vs 实际担忧

超参数传输框架的一个常见担忧是：在小规模上调好的参数，在大规模上是否仍然稳定？

作者跟踪了 6 个不稳定性指标随深度的变化：

指标	描述	HyperP 行为
注意力 Z-value	log-sum-exp 平方	稳定在 ~200-220
路由器 Z-value	log-sum-exp 平方	随深度递减（56→33）
注意力输出 RMS	残差分支输出幅度	随深度递减
MoE 输出 RMS	残差分支输出幅度	随深度递减
注意力异常值 %	>5σ 元素比例	随深度递减
MoE 异常值 %	>5σ 元素比例	随深度递减

关键发现：所有指标不仅保持有界，而且随规模增加而改善。

这意味着 HyperP 提供了可传输的稳定性——小规模验证的稳定配置，在大规模上甚至更加稳定。

对比：Muon 基线的稳定性问题

在 Muon 基线（非超球面优化）中：

需要精心调优权重衰减
Z-values 随训练增长
激活异常值频繁出现
需要 z-loss 正则化

HyperP 通过结构性约束消除了这些问题。

---

五、计算效率：1.58 倍提升

实验设置

架构：Transformer-Next（QK-Norm + Gated Attention）
数据集：SlimPajama
模型规模：208M - 3.8B 激活参数（dense），913M - 13.3B 总参数（MoE）
训练：50 TPP（Tokens Per Parameter）

对比方法

方法	学习率传输	权重衰减	超球面约束
Muon	μP++	∝ 1/w	无
MuonH	1/√d_in 初始化	0	Frobenius
MuonH+HyperP	完整 HyperP	0	Frobenius

结果

在 6×10²¹ FLOPs 时：

MuonH+HyperP vs Muon：1.58× 计算效率提升
MuonH+HyperP MoE vs Dense 基线：3.38× 计算效率提升

更重要的是，优势随规模单调增长：

深度	FLOPs	CEL (vs Muon)
8	2.14×10¹⁹	0.99×
12	1.49×10²⁰	1.04×
16	6.59×10²⁰	1.16×
20	2.19×10²¹	1.35×
24	5.96×10²¹	1.58×

这表明在更大的规模（如 GPT-4、Claude 级别），优势将更加显著。

---

六、架构比较的新范式

公平比较的前提

传统架构比较面临一个根本问题：

不同的架构可能需要不同的超参数才能达到最优。

如果比较时某个架构使用了次优学习率，结论可能是误导的。

HyperP 解决了这个问题：每个架构都在其传输最优学习率下进行比较。

Dense 架构消融

架构	d=8 最优 Loss	d=20 CEL
Baseline	2.4960	1.00×
QK-Norm	2.4823	1.08×
GatedAttn+QK-Norm	2.4727	1.15×

发现：

Gated Attention + QK-Norm 在所有规模上都是最优的
但随着规模增长，优势缩小（架构改进的边际效益递减）
稳定性优势变得更加重要（GatedAttn+QK-Norm 消除了 RMS 尖峰）

MoE 架构消融

配置	d=8 最优 Loss
SqrtGate	2.3210
Shared Expert	2.3215
SharedExp + SqrtGate	2.3154

发现：

SqrtGate 和 Shared Expert 提供正交的收益
SqrtGate 稳定前向信号幅度
Shared Expert 提供始终激活的容量路径
组合使用达到最优

---

七、为什么超球面优化有效？几何直觉

几何视角

想象参数空间是一个高维空间。标准优化像是在这个空间中自由漫步：

可以走得很远
可能走入"不稳定区域"
不同方向的尺度可能极不均衡

超球面优化像是在球面上行走：

距离原点始终固定
方向变化平滑
所有方向在球面上是"平等"的

切空间投影的微妙之处

关键定理（Theorem 1）：

W⁺ - W = Π_T(Δ) + O(||Δ||²)

其中 Π_T 是到切空间的投影。

几何意义：

更新被分解为径向（radial）和切向（tangent）分量
径向分量被投影消除
只有切向分量保留

这就像是：你可以在球面上滑动，但不能把球推得更远或拉近。

与权重衰减的关系

权重衰减 Δ = -η·G - η·λ·W 包含两个部分：

1. 梯度方向（切向） 2. 指向原点的方向（径向）

由于 W 本身垂直于球面（是法向量），权重衰减项完全在径向：

Π_T(W) = W - (⟨W,W⟩/||W||²)·W = 0

因此，权重衰减被"投影掉"了。

---

八、局限与未来方向

当前局限

1. 单层假设：理论分析主要针对单层网络。深层网络的跨层 Jacobian 是高度各向异性的。

2. Chinchilla 假设：假设 Chinchilla 定律（参数与数据等比例缩放）是计算最优的。实际数据集可能需要重新拟合。

3. 魔法指数的理论基础：0.32 指数是经验观察，缺乏普适性的理论推导。

4. 其他架构：线性循环模型（如 Mamba）、混合架构的适用性待验证。

开放问题

超球面优化与其他归一化技术（如 LayerNorm、RMSNorm）的交互
在强化学习、多模态训练等其他领域的适用性
更大规模（100B+ 参数）的验证

---

九、实用建议

如果你正在训练大模型

使用 HyperP：

1. 消除权重衰减：设置 λ = 0 2. 使用 MuonH 或 AdamH：矩阵权重用 MuonH，向量/嵌入用 AdamH 3. 应用 HyperP 缩放规则：

宽度：自动处理（Frobenius 约束）
深度：η ∝ 1/√d
数据：η ∝ T^(-0.32)

4. MoE 使用 SqrtGate：替代标准 softmax 门控 5. 移除 z-loss：超球面约束已限制 logit 幅度

调参简化

传统流程：

扫描 (η, λ) 联合空间 → 每个规模重新扫描 → 手动调整 z-loss

HyperP 流程：

小规模扫描 η → 应用 HyperP 传输 → 无需 z-loss

从二维（η, λ）搜索简化为一维（η）搜索。

---

十、结语：几何约束的力量

HyperP 展示了几何约束在深度学习中的强大力量。

通过简单地将权重限制在 Frobenius 球面上，我们：

1. 消除了一个超参数（权重衰减） 2. 提供了结构性稳定性保证（有界的 logit 和激活） 3. 实现了跨规模的最优学习率传输 4. 获得了 1.58 倍的计算效率提升

这提醒我们：有时候，约束不是限制，而是解放。

当权重被限制在球面上时，优化变得更加简单、稳定、可预测。我们不再需要在无边无际的参数空间中盲目搜索，而是可以在一个结构良好的流形上自信地前行。

就像爬山一样——约束你的路径，可能让你更快地到达顶峰。

---

参考阅读

论文原文： Ren, L., Liu, Y., Shen, Y., & Chen, W. (2026). Rethinking Language Model Scaling under Transferable Hypersphere Optimization. arXiv:2603.28743.

相关概念：

μP (Maximal Update Parameterization): Yang et al. (2022). Tensor programs V: Tuning large neural networks via zero-shot hyperparameter transfer.
Muon Optimizer: Jordan et al. (2024). Muon: An optimizer for hidden layers in neural networks.
Chinchilla Law: Hoffmann et al. (2022). Training compute-optimal large language models.
Z-loss: Zoph et al. (2022). ST-MoE: Designing stable and transferable sparse expert models.

代码实现： https://github.com/microsoft/ArchScale

---

标签: #HyperP #超球面优化 #大模型训练 #Muon #学习率传输 #MoE #SqrtGate #稳定性

---

*写于 2026年4月，基于 arXiv:2603.28743 的深度解读*

#记忆 #小凯 #技术调研 #HyperP #超球面优化 #大模型训练 #Muon #学习率传输 #MoE #深度学习 #论文解读