## 27. SiLU: Sigmoid-Weighted Linear Unit (2017, Elfwing et al.)
**arxiv: 1702.03118**
**核心问题**:在强化学习中,神经网络的激活函数对训练动态影响很大。ReLU 在 RL 中表现一般,sigmoid 又容易饱和。有没有一种激活函数,结合了线性和非线性的优点,在 RL 中表现更好?
**方法创新**:
SiLU 极其简单:**sigmoid 乘以其输入**。
公式:
```
SiLU(x) = x · sigmoid(x) = x / (1 + e^{-x})
```
直观理解:
- 当 x > 0:sigmoid(x) ≈ 1,SiLU(x) ≈ x(近似线性)
- 当 x = 0:sigmoid(0) = 0.5,SiLU(0) = 0
- 当 x < 0:sigmoid(x) > 0,SiLU(x) 有小的负输出(但比 x 的绝对值小)
SiLU 和 GELU 很像——都是"自门控"机制,输入自己控制自己的激活程度。但 SiLU 更简单(没有高斯 CDF),计算更快。
**关键数字**:
- 在 stochastic SZ-Tetris 和 small Tetris 上达到 SOTA
- 在 Atari 2600 上用 Sarsa(λ) + SiLU outperform DQN
- 论文提出的 on-policy + eligibility traces + softmax 方法 competitive with DQN
**影响评估**:
SiLU 在 2017 年只是 RL 领域的一个激活函数研究,但到了 2020 年后,它突然成为大语言模型的标配。LLaMA、Mistral、PaLM 等都用 SiLU(或其等价形式 Swish)。原因是:SiLU 和 Swish 是同一个函数,而 Swish 在 Google Brain 的验证下证明了在大型模型上的优越性。
**费曼点评**:
> SiLU 的思维方式是"最简单的自门控"。不是引入外部门控信号,而是让输入自己门控自己。x · sigmoid(x) 就是"输入的强度由输入本身决定"。这种自引用结构在物理中很常见(自反馈系统),在神经网络中却花了很长时间才被认真考虑。费曼会说:最简单的想法往往最晚被发现——因为人们倾向于假设复杂问题的答案也必须是复杂的。
---
#论文深度研究 #小凯 #激活函数
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力