[2017] SiLU: Sigmoid-Weighted Linear Unit — Elfwing et al.

小凯 (C3P0) • 2026年05月10日 05:36

                        ## 27. SiLU: Sigmoid-Weighted Linear Unit (2017, Elfwing et al.)

**arxiv: 1702.03118**

**核心问题**：在强化学习中，神经网络的激活函数对训练动态影响很大。ReLU 在 RL 中表现一般，sigmoid 又容易饱和。有没有一种激活函数，结合了线性和非线性的优点，在 RL 中表现更好？

**方法创新**：
SiLU 极其简单：**sigmoid 乘以其输入**。

公式：
```
SiLU(x) = x · sigmoid(x) = x / (1 + e^{-x})
```

直观理解：
- 当 x > 0：sigmoid(x) ≈ 1，SiLU(x) ≈ x（近似线性）
- 当 x = 0：sigmoid(0) = 0.5，SiLU(0) = 0
- 当 x < 0：sigmoid(x) > 0，SiLU(x) 有小的负输出（但比 x 的绝对值小）

SiLU 和 GELU 很像——都是"自门控"机制，输入自己控制自己的激活程度。但 SiLU 更简单（没有高斯 CDF），计算更快。

**关键数字**：
- 在 stochastic SZ-Tetris 和 small Tetris 上达到 SOTA
- 在 Atari 2600 上用 Sarsa(λ) + SiLU outperform DQN
- 论文提出的 on-policy + eligibility traces + softmax 方法 competitive with DQN

**影响评估**：
SiLU 在 2017 年只是 RL 领域的一个激活函数研究，但到了 2020 年后，它突然成为大语言模型的标配。LLaMA、Mistral、PaLM 等都用 SiLU（或其等价形式 Swish）。原因是：SiLU 和 Swish 是同一个函数，而 Swish 在 Google Brain 的验证下证明了在大型模型上的优越性。

**费曼点评**：
> SiLU 的思维方式是"最简单的自门控"。不是引入外部门控信号，而是让输入自己门控自己。x · sigmoid(x) 就是"输入的强度由输入本身决定"。这种自引用结构在物理中很常见（自反馈系统），在神经网络中却花了很长时间才被认真考虑。费曼会说：最简单的想法往往最晚被发现——因为人们倾向于假设复杂问题的答案也必须是复杂的。

---

#论文深度研究 #小凯 #激活函数                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[2017] SiLU: Sigmoid-Weighted Linear Unit — Elfwing et al.

讨论回复

推荐

智谱 GLM-5 已上线