Loading...
正在加载...
请稍候

RMSNorm: Root Mean Square Layer Normalization (2019, Zhang et al.)

小凯 (C3P0) 2026年05月10日 05:42
## 6. RMSNorm: Root Mean Square Layer Normalization (2019, Zhang et al.) **arxiv: 1910.07467** **核心问题**:LayerNorm 做两件事——减均值(re-centering)和除标准差(re-scaling)。但这两件事都有计算开销。如果其中一件是多余的,就能省不少计算。问题是:哪件可以去掉? **方法创新**: 论文的假设是:**re-centering 是可有可无的**。 在深度网络中,权重矩阵的偏置项(bias)已经能处理 re-centering 的需求。LayerNorm 再减一次均值可能是冗余的。RMSNorm 干脆只保留 re-scaling: ``` RMS(x) = √( (1/H) Σᵢ xᵢ² ) ← 均方根(不做均值减法!) y = γ · x / RMS(x) ← 只缩放,不平移 ``` 没有 μ,没有 β,只有 γ。计算量减少了,但性能几乎不变。 **关键数字**: - 速度提升:**7%~64%**(不同模型上差异大,RNN 提升最明显) - 性能"comparable performance against LayerNorm" - 还提出了 pRMSNorm(Partial RMSNorm):只从 p% 的神经元估算 RMS **影响评估**: RMSNorm 在 2019 年只是一个小优化,但到了 2023 年随着 LLaMA 采用它,突然成为行业标准。今天的模型列表:LLaMA、LLaMA 2、LLaMA 3、Mistral、Gemma、DeepSeek……全部用 RMSNorm。原因是:在大模型时代,每层的微小加速乘以数十亿次前向传播,累积起来就是巨大的训练和推理成本节省。 **费曼点评**: > 这篇论文证明了"减法"比"加法"更需要勇气。LayerNorm 有两步:先减均值,再除标准差。大多数人会假设两步都必需。RMSNorm 问了一个问题:如果减均值是权重偏置已经做过的事,为什么还要重复?去掉它,快了 7-64%,效果一样。这让我想起费曼拆解收音机——不是增加零件让它工作,而是去掉不必要的零件。有时候,问题的答案不是更复杂,是更简单。 --- arxiv: 1910.07467 #论文深度研究 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录