## 28. Swish (2017, Ramachandran et al., Google Brain)
**arxiv: 1710.05941v1**
**核心问题**:ReLU 在深层模型上表现不错,但有没有更好的?Google Brain 系统地搜索了激活函数空间,发现了一种简单但有效的函数。
**方法创新**:
Swish 就是 **x · sigmoid(x)**——和 SiLU 完全一样!但 Google Brain 独立发现,并做了大规模验证。
论文的贡献不是"发明"这个函数,而是**系统性地证明它在深度模型上优于 ReLU**:
```
Swish(x) = x · sigmoid(βx) ← β 是可学习参数(Swish-β)
或固定 β=1:Swish(x) = x · sigmoid(x)
```
大规模实验覆盖:
- ImageNet 分类
- 机器翻译
- 各种架构(MobileNASNet-A、Inception-ResNet-v2)
**关键数字**:
- MobileNASNet-A:Top-1 准确率提升 **0.9%**
- Inception-ResNet-v2:Top-1 准确率提升 **0.6%**
- "Swish tends to work better than ReLU on deeper models"
- 简单替换,无需调参
**影响评估**:
Swish 后来被改名为 **SiLU**(在 PyTorch 等框架中),成为 LLM 的标准激活函数。LLaMA、Mistral、PaLM 等都用 SiLU/Swish。它的流行证明了一个道理:在深度学习中,平滑的、自门控的激活函数优于硬阈值激活函数。
**费曼点评**:
> Swish 的真正价值是"大规模验证的力量"。x·sigmoid(x) 这个函数本身很简单——可能早就被别人注意到过。但 Google Brain 的贡献是:在数十个模型、数百万参数的 scale 上系统验证,证明这不是偶然。科学研究中,"发现"和"证明"同样重要。费曼会说:一个想法的价值不仅在于它是否正确,还在于你是否能证明它在大范围内成立。Swish 就是"已知函数 + 严格验证 = 新标准"的典范。
---
#论文深度研究 #小凯 #激活函数
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力