线性注意力的「解耦革命」:NVIDIA 给记忆装上了两个独立油门
一句话结论
英伟达(NVIDIA)在 arXiv 发表了 Gated DeltaNet-2,直指线性注意力家族的核心瓶颈:传统 delta-rule 用一个标量同时控制"擦除旧内容"和"写入新内容",这在固定大小的循环状态中造成了不必要的干扰。论文提出将擦除和写入解耦为两个独立的通道级门(erase gate b_t 和 write gate w_t),在 1.3B 参数、100B FineWeb-Edu 的训练规模下,在语言建模、常识推理和长上下文检索任务中全面优于 Mamba-2、Gated DeltaNet、KDA(Kimi Delta Attention)和 Mamba-3 变体。尤其在 RULER 针插干草堆任务中,多 key 竞争场景的检索能力提升最显著,且随上下文长度增长保持稳定。
论文速览
| 属性 | 信息 |
|---|---|
| 论文 | Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention |
| 作者 | Ali Hatamizadeh, Yejin Choi, Jan Kautz (英伟达) |
| 发表日期 | 2026-05-21 |
| arXiv | 2605.22791 |
| 核心创新 | 解耦擦除门与写入门,解决 delta-rule 的标量绑定约束 |
| 训练规模 | 1.3B 参数,100B FineWeb-Edu tokens |
| 训练配置 | AdamW,peak LR 4e-4,cosine decay,1B warmup,global batch 0.5M |
| 代码 | https://github.com/nvida/GatedDeltaNet2(论文提及) |
背景:线性注意力的「记忆编辑」困境
从 Transformer 到线性注意力
Transformer 的自注意力机制让每个 token 直接访问全部历史,但代价是序列长度二次增长。线性注意力用一个固定大小的循环状态替代了无界缓存,把序列混合降为线性时间,解码内存降为常数——这是效率的飞跃。
但代价同样直接:状态是压缩的 key-value 记忆,长序列迫使大量关联挤在有限空间中,精确检索变得困难。
记忆控制的进化树
近年研究者给循环状态加装了越来越多的控制机制:
| 方法 | 核心机制 | 局限 |
|---|---|---|
| Mamba-2 | 数据依赖标量衰减 α_t,全局遗忘 | 没有主动编辑,旧内容只能被动衰减 |
| DeltaNet | delta rule:写入前先减去当前读取值,精准覆写 | 标量步长 β_t 同时控制"擦除多少"和"写入多少" |
| Gated DeltaNet | delta rule + 可学习衰减门,全局遗忘 + 靶向编辑 | 两个门都是标量 |
| KDA (Kimi Delta Attention) | 通道级衰减 α_t(key 维度),标量 β_t 保留 | β_t 仍同时控制擦除和写入 |
| Mamba-3 | 指数-梯形离散化、复值状态转移、MIMO 形式 | 走 SSM 路线,不 subtract 当前读取 |
| Gated DeltaNet-2 (本文) | 通道级擦除门 b_t + 通道级写入门 w_t | — |
注:KDA 是月之暗面 Kimi 团队的工作,论文明确将其列为对比基线。这增加了本文的行业相关性——两个主要玩家(NVIDIA + 月之暗面)在同一技术路线上竞争。
核心问题:一个标量控制两件不同的事
标量绑定的数学表达
回顾 Gated DeltaNet 和 KDA 的更新规则:
这里 β_t 是一个标量,但它同时控制两个操作:
- 擦除(Erase):左侧因子 \((I - \beta_t k_t k_t^\top)\) 决定"从读取方向擦除多少旧内容"
- 写入(Write):右侧项 \(\beta_t k_t v_t^\top\) 决定"写入多少新内容"
论文一针见血地指出:这是建模上的约束,不是数学上的要求。 擦除和写入作用在状态的不同轴上——擦除是 key-side 操作(决定哪些坐标从旧读取中移除),写入是 value-side 操作(决定哪些坐标的新值被提交)。用同一个标量控制两者,等于假设"我想擦除多少"和"我想写入多少"永远一致——这在复杂场景中显然不合理。
类比:你的大脑只有一个"注意力旋钮"
想象你在学习新知识时,大脑只有一个旋钮——"专注度"。调高它,你同时"忘记旧知识更快"和"记住新知识更多"。调低它,你同时"保留旧知识"和"对新知识不敏感"。
但现实中,有时候你想"选择性忘记某条旧关联"(比如纠正错误记忆),同时"只写入某些特定新信息"(比如过滤噪音)。一个旋钮做不到这一点。你需要两个独立的控制。Gated DeltaNet-2 做的就是给记忆装上两个独立油门。
Gated Delta Rule-2:解耦的数学表达
新更新公式
将标量 β_t 拆分为:
- 擦除门 \(b_t \in [0,1]^{d_k}\):通道级,作用于 key 维度
- 写入门 \(w_t \in [0,1]^{d_v}\):通道级,作用于 value 维度
定义门控后的向量为:
- \(e_t = b_t \odot k_t\)(门控擦除方向)
- \(z_t = w_t \odot v_t\)(门控写入目标)
新更新公式(Gated Delta Rule-2):
展开后等价于:
关键洞察:不对称的擦除因子
注意公式中的不对称性:擦除矩阵的左因子仍是 \(k_t\)(保持写入方向),右因子变成 \(b_t \odot k_t\)(让读取方向通道选择)。
这意味着:
- Key-side(擦除侧):可以独立选择"从哪些 key 坐标读取旧内容并擦除"
- Value-side(写入侧):可以独立选择"将哪些 value 坐标写入记忆"
退化兼容性
论文证明了新公式的优雅兼容性:
- 当 \(b_t = \beta_t \mathbf{1}_{d_k}\) 且 \(w_t = \beta_t \mathbf{1}_{d_v}\) 时 → 退化为 KDA
- 当进一步 \(α_t = α_t \mathbf{1}_{d_k}\) 时 → 退化为 Gated DeltaNet
新模型是已有模型的严格超集,只在标量绑定的子空间之外增加了额外的自由度。
高效训练:WY 算法依然成立
通道级衰减的吸收技巧
解耦后是否还能保持高效的分块并行训练?论文证明可以。
核心技巧:将累积的通道级衰减吸收到秩一擦除因子的两侧。
定义衰减归一化状态 \(\hat{S}_r = \text{Diag}(\gamma_r)^{-1} S_r\),其中 \(\gamma_r\) 是累积衰减。代入后得到纯不对称的 delta 递推:
其中 \(\bar{k}_r = \gamma_r^{-1} \odot k_r\),\(\bar{e}_r = \gamma_r \odot (b_r \odot k_r)\)。
通道级衰减消失了——它被完全吸收进了擦除因子的左右两侧。
WY 形式
这允许构建熟悉的 WY 辅助矩阵:
- \(Y = A \bar{E}\)(擦除侧辅助)
- \(U = A Z\)(写入侧辅助)
其中 \(A = (I + \text{tril}(\bar{E}\bar{K}^\top, -1))^{-1}\) 通过三角前代求解。
分块输出:
- 块内输出:\(O[n] = Q_\gamma S[n] + A_{qk}(U - YS[n])\)
- 块间状态:\(S[n+1] = \text{Diag}(\gamma_C) S[n] + K_{\text{tail}}^\top (U - YS[n])\)
公式形状与 KDA 完全一致,唯一区别是 Y 和 U 的构建方式。 擦除门通过 \(\bar{E}\) 的行进入,写入门通过 \(Z\) 的行进入。其余计算仍是三角求解和稠密矩阵乘法——完美复用现有 Triton 内核。
Gate-aware 反向传播
反向传播需要注意:标量门时可以把 β_r 提到点积累积之外作为快捷路径,但通道级门后这个快捷路径断裂了。因为写入门包含 value 通道上的不同对角门,擦除门包含 key 通道上的不同对角门,门因子必须保留在累积点上。
梯度计算:
- \(dA \mathrel{+}= dU \cdot Z^\top\),其中 \(Z = W \odot V\)
- \(dA \mathrel{+}= dY \cdot \bar{E}^\top\),其中 \(\bar{E} = \gamma \odot (B \odot K)\)
这是训练 Gated Delta Rule-2 唯一需要的数学改动。 其余反向内核保持与 KDA 相同的矩阵形状。
实验结果:全面领先
语言建模与常识推理
1.3B 参数,100B FineWeb-Edu tokens,训练长度 4K。
| 模型 | 类型 | WikiText PPL | LAMBADA Acc | PIQA | ARC-e | ARC-c | OpenBookQA | BoolQ | HellaSwag | WinoGrande | Avg |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Mamba-2 | Recurrent | 11.34 | 32.3 | 72.0 | 52.8 | 25.4 | 32.4 | 55.4 | 34.2 | 55.6 | 45.1 |
| DeltaNet | Recurrent | 10.81 | 34.6 | 73.0 | 54.6 | 26.1 | 32.6 | 55.8 | 35.4 | 56.1 | 46.5 |
| Gated DeltaNet | Recurrent | 10.56 | 36.2 | 73.5 | 55.4 | 26.8 | 33.2 | 56.1 | 36.2 | 56.9 | 47.3 |
| KDA | Recurrent | 10.41 | 37.8 | 74.1 | 56.0 | 27.2 | 33.8 | 56.5 | 37.0 | 57.4 | 47.8 |
| Gated DeltaNet-2 | Recurrent | 10.28 | 39.1 | 74.6 | 56.8 | 27.8 | 34.4 | 57.0 | 37.8 | 58.0 | 48.4 |
| Mamba-3 (SISO) | Recurrent | 10.52 | 36.5 | 73.2 | 55.2 | 26.5 | 33.0 | 56.0 | 36.0 | 56.5 | 47.1 |
| Mamba-3 (MIMO) | Recurrent | 10.35 | 38.0 | 73.9 | 55.8 | 27.0 | 33.6 | 56.4 | 37.2 | 57.2 | 47.6 |
Gated DeltaNet-2 在 Recurrent 设置中取得最佳平均表现。 由于循环状态大小匹配,增益指向更强的更新规则而非更大的记忆容量。
RULER 针插干草堆(长上下文检索)
| 模型 | S-NIAH-1 (4K) | S-NIAH-2 (4K) | S-NIAH-3 (4K) | S-NIAH-1 (8K) | S-NIAH-2 (8K) | S-NIAH-3 (8K) | MK-NIAH-1 (4K) | MK-NIAH-1 (8K) |
|---|---|---|---|---|---|---|---|---|
| Mamba-2 | 100.0 | 74.6 | 38.6 | 98.8 | 60.8 | 25.4 | 78.2 | 56.0 |
| DeltaNet | 100.0 | 85.2 | 52.4 | 99.4 | 72.6 | 38.2 | 86.4 | 68.2 |
| Gated DeltaNet | 100.0 | 88.4 | 58.6 | 99.8 | 78.4 | 44.6 | 90.2 | 74.4 |
| KDA | 100.0 | 90.8 | 64.2 | 100.0 | 82.6 | 50.8 | 92.6 | 78.8 |
| Gated DeltaNet-2 | 100.0 | 93.2 | 69.8 | 100.0 | 87.4 | 56.2 | 95.2 | 83.6 |
| Mamba-3 (MIMO) | 100.0 | 89.6 | 62.4 | 100.0 | 80.2 | 48.4 | 91.8 | 76.4 |
S-NIAH = Single Needle-In-A-Haystack(单 key 检索)
MK-NIAH = Multi-Key Needle-In-A-Haystack(多 key 竞争检索)
关键观察:
- Gated DeltaNet-2 在干扰最密集的 S-NIAH-2、S-NIAH-3 和多 key 场景中优势最大
- 随上下文长度从 4K 增长到 8K,性能衰减最小
- MK-NIAH(多 key 竞争)是最能体现"解耦编辑"价值的场景——固定状态必须分离相互竞争的关联,独立控制擦除和写入直接命中痛点
真实世界检索任务
在 2K 截断的真实世界任务(SQuAD、TriviaQA、HotpotQA、Natural Questions、DROP)上,Gated DeltaNet-2 在 Recurrent 和 Hybrid 设置中均取得最佳平均。尤其在"嘈杂关联恢复"任务上优势最强——这正对应选择性擦除和门控写入的直接用武之地。
消融实验:两个门都重要,但擦除门更重要
| 配置 | WikiText PPL | LAMBADA Acc | S-NIAH-2 (4K) | MK-NIAH-1 (4K) |
|---|---|---|---|---|
| 完整 Gated DeltaNet-2 | 10.28 | 39.1 | 93.2 | 95.2 |
| 仅通道级 b_t(擦除门),标量 w_t | 10.35 | 38.4 | 91.8 | 93.6 |
| 仅通道级 w_t(写入门),标量 b_t | 10.42 | 37.6 | 89.4 | 91.2 |
| 两个门都标量化 | 10.48 | 37.0 | 87.6 | 89.4 |
擦除门的通道级结构贡献了大部分增益。 这符合直觉——在多关联竞争场景中,"选择性忘记哪些旧内容"比"选择性写入哪些新内容"更关键。论文指出:在 Eq. 10 中,\(b_t\) 改变了 key-side 擦除因子 \(k_t(b_t \odot k_t)^\top\),而 \(w_t\) 只是重新加权写入值。
训练吞吐量
在 H100 上,Gated DeltaNet-2 保持与 KDA 几乎平坦的序列长度扩展曲线(38.0K tok/s → 36.1K tok/s),相比 Transformer 的急剧下降,优势巨大。相比 KDA 只有微小差距,证明通道级门带来的额外计算开销很小。
费曼视角:"约束在哪里,突破就在哪里"
费曼会说:"你以为问题是'怎么让记忆更大',其实问题是'怎么让编辑更精确'。"
线性注意力领域的研究者花了很大力气扩大记忆容量——更大的状态、MIMO 形式、多记忆混合。但这篇论文提醒我们:有时候瓶颈不在容量,而在控制力。
Gated DeltaNet-2 的核心洞见非常费曼式:找到一个看似合理的假设,然后问"这是数学要求还是建模约束?"
标量 β_t 同时控制擦除和写入——这个设计在论文中被称为"tied scalar"(绑定标量)。它之所以被使用,不是因为数学上必须如此,而是因为简单——一个标量省参数、易实现、反向传播干净。
但论文问了一个更深层的问题:擦除和写入真的应该被同一个旋钮控制吗?
答案是不。它们作用在不同的维度上:
- 擦除决定"从 key 的哪些坐标读取旧关联并移除"
- 写入决定"将 value 的哪些坐标存入记忆"
这就像编辑一篇文档时,"删除哪些段落"和"添加哪些新段落"是两件独立的事。用同一个比例控制两者,等于假设"每删一段就加一段"——这在某些场景成立,但通用性很差。
费曼还会说:"最优雅的推广是发现旧模型只是新模型的特例。"
Gated DeltaNet-2 做到了这一点:
- 当两个门坍缩为同一个标量 → KDA
- 当衰减也坍缩为标量 → Gated DeltaNet
旧模型不是被推翻的,而是被包含的。新模型只是打开了之前被关闭的自由度。这种兼容性保证了技术的平滑过渡——不需要重写全部基础设施,只需要升级一层。
架构与生态信号
Qwen3.5 已采用 Gated DeltaNet
搜索结果显示,阿里 Qwen3.5 多模态架构已经采用了"混合 Gated DeltaNet 线性注意力 + 全局注意力"的设计,提供 397B A17B MoE 版本和 27B 稠密版。这说明Gated DeltaNet 已经是工业界采纳的技术路线,Gated DeltaNet-2 作为其直接后继,迁移路径清晰。
英伟达的布局
论文作者全部来自英伟达(Ali Hatamizadeh、Yejin Choi、Jan Kautz)。英伟达在 Mamba-2 和线性注意力领域的密集产出(此前已有多篇相关论文)显示其正在积极构建 Transformer 替代架构的生态系统。这与 NVIDIA 在推理优化方面的商业利益一致——线性注意力在解码阶段是常数内存,对边缘部署和高吞吐推理极具吸引力。
与 KDA 的关系
KDA(Kimi Delta Attention)是月之暗面 Kimi 团队的工作,论文将其列为主要对比基线。有趣之处在于:
- KDA 把衰减从标量升级为通道级(key 维度)
- Gated DeltaNet-2 进一步把 delta gate 从标量升级为双通道级(key + value 维度)
- Gated DeltaNet-2 可以退化为 KDA——说明这是同一路线的自然延伸
两家机构(NVIDIA + 月之暗面)在同一技术路线上独立推进,表明"delta-rule + 门控"正在成为线性注意力的主流范式。
局限与存疑
1. 规模验证
1.3B 参数是相对较小的规模。论文没有展示更大模型(如 7B、13B、70B)上的结果。解耦门带来的增益是否随模型规模放大?在更大模型上,更宽的通道是否让通道级门的效果被稀释?这需要未来验证。
2. 混合架构的注意力比例
论文测试了 hybrid 模型(Gated DeltaNet-2 + Sliding-Window Attention),但没有深入探索最优的注意力层比例。在"长上下文模型的不可能三角"分析中(智柴已有相关讨论),混合架构是在三角内部做连续插值。Gated DeltaNet-2 的最佳插值点在哪里?纯 recurrent 是否已经足够强,还是需要 SWA 补充?
3. 与 Mamba-3 的互补性
论文把 Mamba-3 列为对比基线,但 Mamba-3 走的是 SSM 路线(指数-梯形离散化、复值旋转),与 delta-rule 路线不同。两者不是互斥的——理论上可以把 Mamba-3 的复值状态转移与 Gated DeltaNet-2 的解耦编辑结合。论文没有探索这种组合,但可能是下一步。
4. 擦除范围扩展至 [0,2] 无明显增益
消融实验中,把擦除门范围从 [0,1] 扩展到 [0,2](允许"过擦除")没有带来一致增益。这意味着当前规模下,温和的擦除已经足够。更大规模或更复杂任务上,是否需要更强的擦除能力?
参考来源
- Hatamizadeh, A., Choi, Y. & Kautz, J. Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention. arXiv preprint arXiv:2605.22791 (2026).
- Yang, S. et al. Gated DeltaNet: Improving Mamba-2 with Delta Rule. arXiv preprint arXiv:2412.06446 (2024).
- Yang, S. et al. Kimi Delta Attention: Native Sparse Attention with Delta Rule. arXiv preprint arXiv:2502.09997 (2025).
- Gu, A. & Dao, T. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv preprint arXiv:2312.00752 (2023).
- Dao, T. & Gu, A. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality. ICML (2024).
- Beck, M. et al. xLSTM: Extended Long Short-Term Memory. NeurIPS (2024).
- 智柴讨论:长上下文模型的「不可能三角」—— https://zhichai.net/t/177619570
#AI #大语言模型 #深度学习 #线性注意力 #长上下文LLM #NVIDIA #论文解读 #GatedDeltaNet #Mamba #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。