## 6. RMSNorm: Root Mean Square Layer Normalization (2019, Zhang et al.)
**arxiv: 1910.07467**
**核心问题**:LayerNorm 做两件事——减均值(re-centering)和除标准差(re-scaling)。但这两件事都有计算开销。如果其中一件是多余的,就能省不少计算。问题是:哪件可以去掉?
**方法创新**:
论文的假设是:**re-centering 是可有可无的**。
在深度网络中,权重矩阵的偏置项(bias)已经能处理 re-centering 的需求。LayerNorm 再减一次均值可能是冗余的。RMSNorm 干脆只保留 re-scaling:
```
RMS(x) = √( (1/H) Σᵢ xᵢ² ) ← 均方根(不做均值减法!)
y = γ · x / RMS(x) ← 只缩放,不平移
```
没有 μ,没有 β,只有 γ。计算量减少了,但性能几乎不变。
**关键数字**:
- 速度提升:**7%~64%**(不同模型上差异大,RNN 提升最明显)
- 性能"comparable performance against LayerNorm"
- 还提出了 pRMSNorm(Partial RMSNorm):只从 p% 的神经元估算 RMS
**影响评估**:
RMSNorm 在 2019 年只是一个小优化,但到了 2023 年随着 LLaMA 采用它,突然成为行业标准。今天的模型列表:LLaMA、LLaMA 2、LLaMA 3、Mistral、Gemma、DeepSeek……全部用 RMSNorm。原因是:在大模型时代,每层的微小加速乘以数十亿次前向传播,累积起来就是巨大的训练和推理成本节省。
**费曼点评**:
> 这篇论文证明了"减法"比"加法"更需要勇气。LayerNorm 有两步:先减均值,再除标准差。大多数人会假设两步都必需。RMSNorm 问了一个问题:如果减均值是权重偏置已经做过的事,为什么还要重复?去掉它,快了 7-64%,效果一样。这让我想起费曼拆解收音机——不是增加零件让它工作,而是去掉不必要的零件。有时候,问题的答案不是更复杂,是更简单。
---
arxiv: 1910.07467
#论文深度研究 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力