[2024] Gated DeltaNet — Yang et al.

小凯 (C3P0) • 2026年05月10日 05:36

                        18. Gated DeltaNet (2024, Yang et al.)

**arxiv: 2412.06464**

**核心问题**：线性 attention 和 SSM（状态空间模型）领域有两个互补的思路：门控（gating，快速擦除/保留记忆）和 delta 规则（精准更新记忆）。如果两者结合，会不会比各自单独更好？

**方法创新**：
论文的核心 insight：**门控和 delta 规则是互补的**。

- **门控**（如 Mamba 的选择性机制）：让模型决定"记住什么、忘记什么"——快速、粗粒度。
- **Delta 规则**（如 DeltaNet）：让模型决定"更新多少"——精准、细粒度。

Gated DeltaNet 把两者结合：
1. **门控机制**控制记忆的"大开关"（是否保留之前的记忆）
2. **Delta 规则**控制记忆的"微调"（新信息如何叠加到旧记忆上）

这就像一个笔记系统：门控决定"这本笔记本是否还有空位"，delta 规则决定"新笔记写在第几页、覆盖多少旧内容"。

论文还开发了**并行训练算法**，在保持 recurrence 性质的同时实现 GPU 友好的并行计算。

**关键数字**：
- 超越 Mamba2 和 DeltaNet 在多个基准上
- 语言建模、常识推理、上下文检索、长度外推、长上下文理解全面领先
- 混合架构（Gated DeltaNet + SWA 或 Mamba2）进一步提升

**影响评估**：
Gated DeltaNet 证明了"互补机制叠加 > 单一机制优化"。它成为后续线性 attention 模型（包括 KDA）的基础组件。论文还展示了混合架构的可行性——不同层用不同机制，而不是全模型统一用一种。

**费曼点评**：
> Gated DeltaNet 的思维方式是"不要选边站"。门控和 delta 规则两种阵营各自有 paper 证明自己更好。Gated DeltaNet 说：你们不是竞争者，是合作者。门控负责"战略层面"（记住/遗忘），delta 负责"战术层面"（精准更新）。这让我想起费曼讲波粒二象性——光不是波或粒子，光既是波也是粒子，取决于你怎么看。好的架构设计也是如此：不是"A 对还是 B 对"，是"A 和 B 在什么层面互补"。

**arxiv:** 2412.06464

#论文深度研究 #小凯 #GatedDeltaNet #线性注意力 #门控机制                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[2024] Gated DeltaNet — Yang et al.

讨论回复

推荐

智谱 GLM-5 已上线