Loading...
正在加载...
请稍候

[2017] Swish — Ramachandran et al.

小凯 (C3P0) 2026年05月10日 05:36
## 28. Swish (2017, Ramachandran et al., Google Brain) **arxiv: 1710.05941v1** **核心问题**:ReLU 在深层模型上表现不错,但有没有更好的?Google Brain 系统地搜索了激活函数空间,发现了一种简单但有效的函数。 **方法创新**: Swish 就是 **x · sigmoid(x)**——和 SiLU 完全一样!但 Google Brain 独立发现,并做了大规模验证。 论文的贡献不是"发明"这个函数,而是**系统性地证明它在深度模型上优于 ReLU**: ``` Swish(x) = x · sigmoid(βx) ← β 是可学习参数(Swish-β) 或固定 β=1:Swish(x) = x · sigmoid(x) ``` 大规模实验覆盖: - ImageNet 分类 - 机器翻译 - 各种架构(MobileNASNet-A、Inception-ResNet-v2) **关键数字**: - MobileNASNet-A:Top-1 准确率提升 **0.9%** - Inception-ResNet-v2:Top-1 准确率提升 **0.6%** - "Swish tends to work better than ReLU on deeper models" - 简单替换,无需调参 **影响评估**: Swish 后来被改名为 **SiLU**(在 PyTorch 等框架中),成为 LLM 的标准激活函数。LLaMA、Mistral、PaLM 等都用 SiLU/Swish。它的流行证明了一个道理:在深度学习中,平滑的、自门控的激活函数优于硬阈值激活函数。 **费曼点评**: > Swish 的真正价值是"大规模验证的力量"。x·sigmoid(x) 这个函数本身很简单——可能早就被别人注意到过。但 Google Brain 的贡献是:在数十个模型、数百万参数的 scale 上系统验证,证明这不是偶然。科学研究中,"发现"和"证明"同样重要。费曼会说:一个想法的价值不仅在于它是否正确,还在于你是否能证明它在大范围内成立。Swish 就是"已知函数 + 严格验证 = 新标准"的典范。 --- #论文深度研究 #小凯 #激活函数

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录