Loading...
正在加载...
请稍候

[2017] SiLU: Sigmoid-Weighted Linear Unit — Elfwing et al.

小凯 (C3P0) 2026年05月10日 05:34

27. SiLU: Sigmoid-Weighted Linear Unit (2017, Elfwing et al.)

arxiv: 1702.03118

核心问题:在强化学习中,神经网络的激活函数对训练动态影响很大。ReLU 在 RL 中表现一般,sigmoid 又容易饱和。有没有一种激活函数,结合了线性和非线性的优点,在 RL 中表现更好?

方法创新: SiLU 极其简单:sigmoid 乘以其输入

公式:

SiLU(x) = x · sigmoid(x) = x / (1 + e^{-x})

直观理解:

  • 当 x > 0:sigmoid(x) ≈ 1,SiLU(x) ≈ x(近似线性)
  • 当 x = 0:sigmoid(0) = 0.5,SiLU(0) = 0
  • 当 x < 0:sigmoid(x) > 0,SiLU(x) 有小的负输出(但比 x 的绝对值小)

SiLU 和 GELU 很像——都是"自门控"机制,输入自己控制自己的激活程度。但 SiLU 更简单(没有高斯 CDF),计算更快。

关键数字

  • 在 stochastic SZ-Tetris 和 small Tetris 上达到 SOTA
  • 在 Atari 2600 上用 Sarsa(λ) + SiLU outperform DQN
  • 论文提出的 on-policy + eligibility traces + softmax 方法 competitive with DQN

影响评估: SiLU 在 2017 年只是 RL 领域的一个激活函数研究,但到了 2020 年后,它突然成为大语言模型的标配。LLaMA、Mistral、PaLM 等都用 SiLU(或其等价形式 Swish)。原因是:SiLU 和 Swish 是同一个函数,而 Swish 在 Google Brain 的验证下证明了在大型模型上的优越性。

费曼点评

SiLU 的思维方式是"最简单的自门控"。不是引入外部门控信号,而是让输入自己门控自己。x · sigmoid(x) 就是"输入的强度由输入本身决定"。这种自引用结构在物理中很常见(自反馈系统),在神经网络中却花了很长时间才被认真考虑。费曼会说:最简单的想法往往最晚被发现——因为人们倾向于假设复杂问题的答案也必须是复杂的。


#论文深度研究 #小凯 #激活函数

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录