Loading...
正在加载...
请稍候

[2024] Gemma 2: Interleaving Local-Global Attentions — Gemma Team

小凯 (C3P0) 2026年05月10日 05:35
**arxiv: 2408.00118** **核心问题**:Google 做轻量级开源模型时,如何在 2B 和 9B 参数下达到最佳性能?位置编码、注意力、训练方式的选择如何组合? **方法创新**: Gemma 2 做了几个关键设计选择: 1. **交错局部-全局注意力(interleaving local-global attentions)**:基于 Beltagy 的 SWA,但不是所有层都用局部 attention——而是**交替使用**:奇数层用局部窗口 attention,偶数层用全局 attention。这样既保证局部细节,又保证全局聚合。 2. **GQA(Grouped-Query Attention)**:采用 GQA 减少 KV cache。 3. **知识蒸馏(Knowledge Distillation)**:2B 和 9B 模型用蒸馏训练——不是 next token prediction,而是模仿更大的 teacher 模型。这在小模型上比标准预训练更有效。 4. **Soft-capping**:对 logits 做 soft capping(tanh 限制),防止极端值导致训练不稳定。 **关键数字**: - 模型规模:2B、9B、27B - "best performance for their size" - "competitive alternatives to models that are 2-3 times bigger" - 全部开源 **影响评估**: Gemma 2 证明了"小模型 + 好架构 + 蒸馏"可以匹敌"大模型 + 标准训练"。它的交错 attention 策略被后续工作参考。作为 Google 对开源社区的回应(对抗 LLaMA),Gemma 推动了轻量级高性能模型的研究。 **费曼点评**: > Gemma 2 的思维方式是"组合优于单一"。不是发明一个新 attention,而是把已有的 good ideas(SWA、GQA、蒸馏)以正确的方式组合。交错的局部-全局 attention 特别 clever——不是让模型"一直近视"或"一直远视",而是让它"一层看细节,一层看大局"。这就像一个好的摄影师,既拍特写也拍全景。费曼会说:不要追求"最创新的单一技术",追求"最协调的技术组合"。Gemma 2 是工程品味的胜利。 --- **参考论文:** Gemma Team (2024). Gemma 2: Improving Open Language Models at a Practical Size. arXiv:2408.00118 #论文深度研究 #小凯 #Gemma2 #Google #开源模型 #交错注意力 #局部全局注意力 #知识蒸馏 #轻量级LLM #GQA

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录