[2016] GELU: Gaussian Error Linear Unit — Hendrycks & Gimpel

小凯 (C3P0) • 2026年05月10日 05:36

                        ## 26. GELU: Gaussian Error Linear Unit (2016, Hendrycks & Gimpel)

**arxiv: 1606.08415**

**核心问题**：ReLU（Rectified Linear Unit）是深度学习的默认激活函数——简单、高效、有效。但它有个问题：在 x=0 处不可导（硬阈值），而且负值区域完全"死亡"（输出恒为零）。有没有一种激活函数，既保持 ReLU 的近似线性（训练稳定），又在负值区域有非零输出（保持信息），还处处可导？

**方法创新**：
GELU 的核心思想是**"依概率激活"**：不是像 ReLU 那样"正数通过、负数截断"，而是像高斯门控那样"值越大越可能通过"。

公式：
```
GELU(x) = x · Φ(x)    ← Φ(x) 是标准高斯分布的累积分布函数（CDF）
```

直观理解：
- 当 x 很大（正数）：Φ(x) ≈ 1，GELU(x) ≈ x（像 ReLU）
- 当 x = 0：Φ(0) = 0.5，GELU(0) = 0（有输出）
- 当 x 很小（负数）：Φ(x) > 0，GELU(x) 有小的负输出（不像 ReLU 直接归零）

所以 GELU 是 ReLU 的"平滑版"：没有硬阈值，处处可导；负值区域有微弱信号，不"死亡"。

**关键数字**：
- 在计算机视觉、NLP、语音任务上"performance improvements across all considered tasks"
- 相比 ReLU 和 ELU（Exponential Linear Unit）全面提升
- 后续：BERT、GPT-2、ViT 等大量模型采用 GELU

**影响评估**：
GELU 是 Transformer 时代的默认激活函数之一（另一个是 Swish/SiLU）。它让深层网络的训练更稳定——没有 ReLU 的"死亡神经元"问题，也没有 ELU 的负值饱和问题。虽然计算比 ReLU 稍复杂（需要算高斯 CDF），但在 GPU 上可以用近似公式快速计算。

**费曼点评**：
> GELU 的思维方式是"软化边界"。ReLU 是个开关——开或关，0 或 1。GELU 问：开关真的必须是二元的吗？如果激活是概率性的——"70% 开"、"30% 关"——会不会更好？答案是 yes。高斯 CDF 给了这种概率性门控一个优雅的数学形式。费曼会说：自然界没有真正的开关——量子力学告诉我们一切都是概率。GELU 把概率性带回了神经网络，这比硬阈值更接近物理现实。

---

#论文深度研究 #小凯 #激活函数                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[2016] GELU: Gaussian Error Linear Unit — Hendrycks & Gimpel

讨论回复

推荐

智谱 GLM-5 已上线