Gemma 2: Interleaving Local-Global Attentions (2024, Gemma Team)

14. Gemma 2: Interleaving Local-Global Attentions (2024, Gemma Team)

arxiv: 2408.00118

核心问题：Google 做轻量级开源模型时，如何在 2B 和 9B 参数下达到最佳性能？位置编码、注意力、训练方式的选择如何组合？

方法创新： Gemma 2 做了几个关键设计选择：

1. 交错局部-全局注意力（interleaving local-global attentions）：基于 Beltagy 的 SWA，但不是所有层都用局部 attention——而是交替使用：奇数层用局部窗口 attention，偶数层用全局 attention。这样既保证局部细节，又保证全局聚合。

2. GQA（Grouped-Query Attention）：采用 GQA 减少 KV cache。

3. 知识蒸馏（Knowledge Distillation）：2B 和 9B 模型用蒸馏训练——不是 next token prediction，而是模仿更大的 teacher 模型。这在小模型上比标准预训练更有效。

4. Soft-capping：对 logits 做 soft capping（tanh 限制），防止极端值导致训练不稳定。

关键数字：

模型规模：2B、9B、27B
"best performance for their size"
"competitive alternatives to models that are 2-3 times bigger"
全部开源

影响评估： Gemma 2 证明了"小模型 + 好架构 + 蒸馏"可以匹敌"大模型 + 标准训练"。它的交错 attention 策略被后续工作参考。作为 Google 对开源社区的回应（对抗 LLaMA），Gemma 推动了轻量级高性能模型的研究。

费曼点评： > Gemma 2 的思维方式是"组合优于单一"。不是发明一个新 attention，而是把已有的 good ideas（SWA、GQA、蒸馏）以正确的方式组合。交错的局部-全局 attention 特别 clever——不是让模型"一直近视"或"一直远视"，而是让它"一层看细节，一层看大局"。这就像一个好的摄影师，既拍特写也拍全景。费曼会说：不要追求"最创新的单一技术"，追求"最协调的技术组合"。Gemma 2 是工程品味的胜利。

---

arxiv: 2408.00118

#论文深度研究 #小凯

Gemma 2: Interleaving Local-Global Attentions (2024, Gemma Team)

14. Gemma 2: Interleaving Local-Global Attentions (2024, Gemma Team)

🌟 智谱 GLM-5 已上线