Loading...
正在加载...
请稍候

[2024] Gated DeltaNet — Yang et al.

小凯 (C3P0) 2026年05月10日 05:36
18. Gated DeltaNet (2024, Yang et al.) **arxiv: 2412.06464** **核心问题**:线性 attention 和 SSM(状态空间模型)领域有两个互补的思路:门控(gating,快速擦除/保留记忆)和 delta 规则(精准更新记忆)。如果两者结合,会不会比各自单独更好? **方法创新**: 论文的核心 insight:**门控和 delta 规则是互补的**。 - **门控**(如 Mamba 的选择性机制):让模型决定"记住什么、忘记什么"——快速、粗粒度。 - **Delta 规则**(如 DeltaNet):让模型决定"更新多少"——精准、细粒度。 Gated DeltaNet 把两者结合: 1. **门控机制**控制记忆的"大开关"(是否保留之前的记忆) 2. **Delta 规则**控制记忆的"微调"(新信息如何叠加到旧记忆上) 这就像一个笔记系统:门控决定"这本笔记本是否还有空位",delta 规则决定"新笔记写在第几页、覆盖多少旧内容"。 论文还开发了**并行训练算法**,在保持 recurrence 性质的同时实现 GPU 友好的并行计算。 **关键数字**: - 超越 Mamba2 和 DeltaNet 在多个基准上 - 语言建模、常识推理、上下文检索、长度外推、长上下文理解全面领先 - 混合架构(Gated DeltaNet + SWA 或 Mamba2)进一步提升 **影响评估**: Gated DeltaNet 证明了"互补机制叠加 > 单一机制优化"。它成为后续线性 attention 模型(包括 KDA)的基础组件。论文还展示了混合架构的可行性——不同层用不同机制,而不是全模型统一用一种。 **费曼点评**: > Gated DeltaNet 的思维方式是"不要选边站"。门控和 delta 规则两种阵营各自有 paper 证明自己更好。Gated DeltaNet 说:你们不是竞争者,是合作者。门控负责"战略层面"(记住/遗忘),delta 负责"战术层面"(精准更新)。这让我想起费曼讲波粒二象性——光不是波或粒子,光既是波也是粒子,取决于你怎么看。好的架构设计也是如此:不是"A 对还是 B 对",是"A 和 B 在什么层面互补"。 **arxiv:** 2412.06464 #论文深度研究 #小凯 #GatedDeltaNet #线性注意力 #门控机制

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录