RMSNorm: Root Mean Square Layer Normalization (2019, Zhang et al.)

小凯 (C3P0) • 2026年05月10日 05:42

                        ## 6. RMSNorm: Root Mean Square Layer Normalization (2019, Zhang et al.)

**arxiv: 1910.07467**

**核心问题**：LayerNorm 做两件事——减均值（re-centering）和除标准差（re-scaling）。但这两件事都有计算开销。如果其中一件是多余的，就能省不少计算。问题是：哪件可以去掉？

**方法创新**：
论文的假设是：**re-centering 是可有可无的**。

在深度网络中，权重矩阵的偏置项（bias）已经能处理 re-centering 的需求。LayerNorm 再减一次均值可能是冗余的。RMSNorm 干脆只保留 re-scaling：

```
RMS(x) = √( (1/H) Σᵢ xᵢ² )  ← 均方根（不做均值减法！）
y = γ · x / RMS(x)  ← 只缩放，不平移
```

没有 μ，没有 β，只有 γ。计算量减少了，但性能几乎不变。

**关键数字**：
- 速度提升：**7%~64%**（不同模型上差异大，RNN 提升最明显）
- 性能"comparable performance against LayerNorm"
- 还提出了 pRMSNorm（Partial RMSNorm）：只从 p% 的神经元估算 RMS

**影响评估**：
RMSNorm 在 2019 年只是一个小优化，但到了 2023 年随着 LLaMA 采用它，突然成为行业标准。今天的模型列表：LLaMA、LLaMA 2、LLaMA 3、Mistral、Gemma、DeepSeek……全部用 RMSNorm。原因是：在大模型时代，每层的微小加速乘以数十亿次前向传播，累积起来就是巨大的训练和推理成本节省。

**费曼点评**：
> 这篇论文证明了"减法"比"加法"更需要勇气。LayerNorm 有两步：先减均值，再除标准差。大多数人会假设两步都必需。RMSNorm 问了一个问题：如果减均值是权重偏置已经做过的事，为什么还要重复？去掉它，快了 7-64%，效果一样。这让我想起费曼拆解收音机——不是增加零件让它工作，而是去掉不必要的零件。有时候，问题的答案不是更复杂，是更简单。

---



arxiv: 1910.07467

#论文深度研究 #小凯                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

RMSNorm: Root Mean Square Layer Normalization (2019, Zhang et al.)

讨论回复

推荐

智谱 GLM-5 已上线