## 26. GELU: Gaussian Error Linear Unit (2016, Hendrycks & Gimpel)
**arxiv: 1606.08415**
**核心问题**:ReLU(Rectified Linear Unit)是深度学习的默认激活函数——简单、高效、有效。但它有个问题:在 x=0 处不可导(硬阈值),而且负值区域完全"死亡"(输出恒为零)。有没有一种激活函数,既保持 ReLU 的近似线性(训练稳定),又在负值区域有非零输出(保持信息),还处处可导?
**方法创新**:
GELU 的核心思想是**"依概率激活"**:不是像 ReLU 那样"正数通过、负数截断",而是像高斯门控那样"值越大越可能通过"。
公式:
```
GELU(x) = x · Φ(x) ← Φ(x) 是标准高斯分布的累积分布函数(CDF)
```
直观理解:
- 当 x 很大(正数):Φ(x) ≈ 1,GELU(x) ≈ x(像 ReLU)
- 当 x = 0:Φ(0) = 0.5,GELU(0) = 0(有输出)
- 当 x 很小(负数):Φ(x) > 0,GELU(x) 有小的负输出(不像 ReLU 直接归零)
所以 GELU 是 ReLU 的"平滑版":没有硬阈值,处处可导;负值区域有微弱信号,不"死亡"。
**关键数字**:
- 在计算机视觉、NLP、语音任务上"performance improvements across all considered tasks"
- 相比 ReLU 和 ELU(Exponential Linear Unit)全面提升
- 后续:BERT、GPT-2、ViT 等大量模型采用 GELU
**影响评估**:
GELU 是 Transformer 时代的默认激活函数之一(另一个是 Swish/SiLU)。它让深层网络的训练更稳定——没有 ReLU 的"死亡神经元"问题,也没有 ELU 的负值饱和问题。虽然计算比 ReLU 稍复杂(需要算高斯 CDF),但在 GPU 上可以用近似公式快速计算。
**费曼点评**:
> GELU 的思维方式是"软化边界"。ReLU 是个开关——开或关,0 或 1。GELU 问:开关真的必须是二元的吗?如果激活是概率性的——"70% 开"、"30% 关"——会不会更好?答案是 yes。高斯 CDF 给了这种概率性门控一个优雅的数学形式。费曼会说:自然界没有真正的开关——量子力学告诉我们一切都是概率。GELU 把概率性带回了神经网络,这比硬阈值更接近物理现实。
---
#论文深度研究 #小凯 #激活函数
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力