记忆的艺术：当AI学会用左手擦黑板、右手写新字

论文信息
标题	Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention
作者	Ali Hatamizadeh, Yejin Choi, Jan Kautz
机构	NVIDIA Research
arXiv ID	2605.22791
日期	2026年5月21日
分类	cs.AI
代码	github.com/NVlabs/GatedDeltaNet-2
核心论点	将线性注意力中的"擦除"与"写入"解耦为独立的逐通道门控，突破标量门的建模瓶颈，在1.3B规模上全面超越Mamba-2/3、Gated DeltaNet、KDA

---

🖊️ 开场：一个黑板擦和一支粉笔的故事

想象一间老旧的教室。黑板上密密麻麻写满了字——几十年的公式、笔记、涂鸦叠了一层又一层。每隔一段时间，值日生走过来，用黑板擦整片整片地抹掉。然后，他拿起粉笔，写上新的内容。

这是"记忆管理"最原始的方式。拿一整块橡皮，擦一整块板，再拿一支粉笔，写一行字。粗砺，但并不低效。

现在，想象这个值日生变了一个人。他手里握着一个奇怪的装置——黑板擦和粉笔被焊在了一起，由同一个旋钮控制。旋钮拧到左边，橡皮轻轻蹭黑板，粉笔也轻轻触黑板，只能留下一点浅浅的痕迹。旋钮拧到右边，橡皮猛擦，粉笔也猛画——但你根本控制不了擦哪里、写哪里。

这就是Gated DeltaNet（GDN）和Kimi Delta Attention（KDA）——2024到2025年间最先进的线性注意力模型——所面临的困境。它们用一个标量门控（一个数）来同时控制两件事：擦掉旧记忆，和写入新记忆。

NVIDIA Research的三位研究者——Ali Hatamizadeh、Yejin Choi和Jan Kautz——在2026年5月21日发表的Gated DeltaNet-2中，做了一个极其简单却极其有效的改变：把黑板擦和粉笔分开。左手管擦，右手管写。每只手都有自己的控制——每根手指都可以独立调节力度。

这就是"解耦"（decoupling）的力量。全文就这么一个改动。但就是这一个改动，让Gated DeltaNet-2在语言建模、常识推理、长文本检索上，全面超越了此前所有的线性注意力对手。

---

🧠 第一章：什么是线性注意力？一句"请了七千个图书管理员"也不够用

讲清楚Gated DeltaNet-2做了什么，得先讲清楚它的前辈们都是谁、在做什么。

Transformer的注意力机制是件好东西，但它有个致命的弱点：O(n²)的复杂度。 一万个token，就是一亿次关注力计算；十万个token，就是一百亿次。训练时勉强还能靠GPU硬扛，推理时就直接崩塌——每次生成一个新的token，都要重新扫一遍所有历史。这就像你每说完一句话，都要把整本书从头再读一遍。

线性注意力（Linear Attention） 换了一种思路。不单独存储每个token，而是把历史"压缩"成一个固定大小的矩阵——叫它"状态"（state）——然后每过一个token就更新一次状态。读的时候，只从这个压缩状态里检索。

用比喻来说：

标准注意力像一座巨型图书馆，每个读者每次查阅都让七千个图书管理员同时翻出所有藏书，互相比较、互相打分，最后递给你最相关的三页。精准，但烧钱。
线性注意力像一本活页笔记本。每次读到新东西，就把精华摘要记到固定的几页纸上——页数是固定的，不管你看了一万页书还是一亿页书。查的时候，只翻这几页。省事，但信息压缩得越多，越容易串味、混淆、丢失。

关键问题是：怎么在信息持续涌入的时候，保持这页纸上的"记忆质量"？ 你不能一味地往上写——纸满了，就得想办法擦掉旧的不重要的东西，给新的重要的东西腾地方。

这就是过去三年线性注意力研究的核心战场。

---

🔧 第二章：前辈们的工具箱——从Mamba到KDA

市面上最先进的内存管理方案，可以分成两派：

第一派：遗忘派（Mamba系列）

Mamba-2给每个token加上一个标量衰减率α_t：越旧的信息，越不重要。新的写进来，旧的慢慢褪色。就像一幅画放在阳光底下——不主动擦，但时间自然让它淡去。

Mamba-3把这件事做得更精细了：让状态矩阵用复数表示（同时编码幅度和相位），一次处理多个输入和输出通道。本质上还是"记得更好"而非"擦得更聪明"。

第二派：编辑派（DeltaNet系列）

DeltaNet的思路完全不同。它说：先别急着写。读一下现在这个"位置"（key）上已经有啥内容，把旧的扣掉，再把新的填上。

你问："今天天气怎么样？" 之前的记忆中，这个查询位置存的是"今天天气很好，阳光明媚"。新的信息是"今天天气很差，暴雨预警"。 DeltaNet的做法是：从这个位置把"很好"扣掉，把"很差"填进去。

这就是"delta规则"——不是叠加，是修正。用公式表达就是：

$S_t = S_{t-1} + \beta \cdot k_t \cdot (v_t - S_{t-1}^\top k_t)^\top$

读出当前位置的值，算出差多少（delta），只改那么一点。

Gated DeltaNet（GDN）把两派合在一起：先用标量衰减α_t做全局遗忘，再用标量β_t做主动编辑。两手抓，效果优于各自单用。

Kimi Delta Attention（KDA）又进了一步：把全局遗忘从"一个数"升级为"逐通道"——每个key通道有自己的遗忘速率。有些信息必须牢记（通道衰减接近1），有些可以快速遗忘（通道衰减接近0）。就像笔记里最重要的几句用荧光笔画下来，用不褪色的墨水；不太重要的用铅笔，会自然淡去。

但到了这里，一个问题浮现了：标量β还被焊死在中间。 它同时控制着两件完全独立的事——擦多少、写多少。

---

✂️ 第三章：标量之缚——为什么"一把刷子同时蘸颜料和蘸洗笔水"行不通

KDA的记忆更新公式可以写成：

$S_t = (I - \beta_t \cdot k_t k_t^\top) \cdot D_t \cdot S_{t-1} + \beta_t \cdot k_t \cdot v_t^\top$

注意那个 $\beta_t$，它出现了两次：

一次在"擦除"部分：$(I - \beta_t \cdot k_t k_t^\top)$ ——控制从旧记忆里移除多少
一次在"写入"部分：$\beta_t \cdot v_t$ ——控制新信息以多大力度写入

这两个操作，作用在不同的坐标轴上。擦除发生在key的方向上——每个key维度（语义特征维度）需要决定"这条旧痕迹还要不要"。而写入发生在value的方向上——每个value维度（输出特征维度）需要决定"这条新信息以多大力度存储"。

用一个生活中的例子理解这种错位：

你在一家餐厅的后厨帮忙。墙上有一块"今日特供"的小黑板，上面写着昨天的菜单。厨师长让你把它擦干净，写上今天的菜。

KDA之前的所有模型的做法是：递给你一把刷子，刷子的一头是黑板擦，另一头是颜料。这把刷子只有一个控制开关——只控制整把刷子的力度。

你把开关拧大的后果是：黑板擦劲太大了，昨天所有的字都擦掉了，连"本店营业时间"这种应该永久保留的信息一起没了。同时颜料劲也太大了，新字写得厚厚的，把后面想写的东西的空间都占了。

你把开关拧小：黑板擦轻了，昨天擦得半淡不淡的"红烧肉"还在那，今天新写的"清蒸鱼"压在上面，模糊不清。

正确的做法是什么？ 左手拿黑板擦，右手拿粉笔。黑板擦该用多大的力、擦哪些位置，左手自己决定。粉笔该写多重的字、选什么颜色的笔，右手自己决定。

Gated DeltaNet-2，就是这个"把黑板擦和粉笔分开"的改动。

---

🚪 第四章：Gated Delta Rule-2——大门从此打开

来看看这个改动的数学面貌。

定义两个门控向量：

擦除门 $\mathbf{b}_t \in [0,1]^{d_k}$——控制key的每个通道上，旧信息的擦除力度
写入门 $\mathbf{w}_t \in [0,1]^{d_v}$——控制value的每个通道上，新信息的写入力度

新的更新规则：

$\mathbf{S}_t = (I - k_t \cdot (\mathbf{b}_t \odot k_t)^\top) \cdot \mathbf{D}_t \cdot \mathbf{S}_{t-1} + k_t \cdot (\mathbf{w}_t \odot v_t)^\top$

拆开来看：

第一步：通道级衰减。 $\mathbf{D}_t$ 是一个对角矩阵，对角线上的每个元素控制着key的对应通道上记忆衰退的速度。这是从KDA继承的"逐通道遗忘"。

第二步：擦除操作。 $(I - k_t \cdot (\mathbf{b}_t \odot k_t)^\top)$ ——现在擦除有了方向性。$\mathbf{b}_t$ 的每个元素控制key的对应维度上"擦掉多少"，最终形成的是一个带权重的投影矩阵。模型可以说："在第3个语义维度上，彻底擦掉旧记忆（b_3 = 1）；在第17个语义维度上，只轻轻蹭一下（b_17 = 0.1）。"

第三步：写入操作。 $(\mathbf{w}_t \odot v_t)$ ——新内容 $\mathbf{v}_t$ 被 $\mathbf{w}_t$ 逐通道加权后写入。模型可以说："用0.9的力度写入这行关于情感的value，用0.2的力度写入那行关于语法的value。"

这种精细度的提升是质的变化。KDA的标量 $\beta_t$ 只有1个自由度来决定"全局的编辑力度"。Gated DeltaNet-2的向量 $\mathbf{b}_t$ 和 $\mathbf{w}_t$ 加在一起，有 $d_k + d_v$ 个自由度——对于一个典型的d_k = 128的注意力头来说，是从1维控制到256维控制的跃迁。

---

⚡ 第五章：训练效率——不改数学结构，只换参数

读到这，你可能会担心：这么多新参数，训练起来会不会慢得像乌龟？

论文里专门有一节做了吞吐量对比。在H100 GPU上，Gated DeltaNet-2的混合模型（Hybrid）训练吞吐量略有下降——从序列长度2048的约38K tokens/秒降到约36K tokens/秒。作为对比，标准Transformer在这时的吞吐量只有约25K tokens/秒，且随着序列增长到8K时骤降到约12K tokens/秒。

Gated DeltaNet-2保持了线性注意力随序列长度几乎不掉速的特性，增加的擦除门和写入门只带来了很小的常数开销。

这得益于作者精妙的工程实现。他们将逐通道衰减吸收到了擦除因子的rank-one更新中，使得整体计算仍然保持与KDA完全相同的chunkwise WY形式。核函数用Triton实现，前向和反向传播都做了针对性优化。附录里密密麻麻几十页，全是关于怎么让这件事在GPU上跑得飞快的技术细节。

对于开发者和研究者来说，这意味着：你可以用几乎和KDA一样的训练成本，换来显著更好的效果。

---

📊 第六章：数据说话——全面碾压的实证结果

论文在1.3B参数规模、100B FineWeb-Edu tokens的公平配方上，把所有主流线性注意力做了一次系统对决。对手包括：

Mamba-2（2024，SSD统一框架）
Gated DeltaNet（2024，门控+Delta规则）
KDA / Kimi Delta Attention（2025，逐通道衰减）
Mamba-3（2026，SISO和MIMO变体）
标准Transformer（基准线）

语言建模和常识推理：

Gated DeltaNet-2在10个任务的平均分上拿了第一。在纯循环（recurrent）设定下，平均准确率53.11%，接下来是Mamba-3 MIMO的52.39%和KDA的52.28%。注意力混合（hybrid）设定下，同样第一：53.97%，领先KDA的52.68%。

WikiText困惑度：纯循环设定下15.90（KDA 16.81），混合设定下基本持平。这意味着解耦门控带来的改进在预测质量上是真实的，不只是在某些子任务上刷分。

长文本检索——这才是真正的战场：

在RULER基准测试的"大海捞针"（Needle-In-A-Haystack）任务上，Gated DeltaNet-2的优势最为显著。尤其是多键大海捞针（MK-NIAH）——这是个极其困难的任务：上下文里混着多组不同的key-value对，模型需要在固定大小的状态里成功区分并检索它们。

2K上下文MK-NIAH：Gated DeltaNet-2的纯循环版本拿到89.8%，KDA 63.2%，Mamba-3 MIMO 72.4%。 4K上下文MK-NIAH：Gated DeltaNet-2拿到37.8%，KDA 28.0%，Mamba-2 21.4%，Mamba-3 MIMO 18.0%。

注意——在混合模型设定下，优势更加显著：4K MK-NIAH上Gated DeltaNet-2拿到48.0%，KDA 40.4%，Mamba-3 MIMO 46.6%。这意味着擦除门和写入门的解耦不仅在纯循环设定下有效，在和滑动窗口注意力（SWA）搭配时也一样有效，两种机制是互补而非冲突的。

真实世界检索任务：

在SWDE、SQuAD、FDA、TriviaQA、NQ、DROP六个任务中，Gated DeltaNet-2同样全面领先。纯循环平均：29.88%，接下来KDA 28.67%。混合平均：42.28%，接下来Mamba-3 SISO 41.01%。

---

🔬 第七章：消融实验——到底是谁的功劳？

研究者没有止步于"我们的模型赢了"，他们做了精密的消融实验来确认到底是哪个改动带来了提升。

把擦除门退化回标量（保留下逐通道写入门）：各个指标都显著下降。语言建模和检索的降幅最为明显。

把写入门退化回标量（保留下逐通道擦除门）：下降幅度比上面小，但仍然可测量地低于完整版。

结论很清楚：

两个门各自独立贡献改进
擦除门的贡献大于写入门——这完全符合直觉，因为擦除门直接作用于记忆纠错的key侧，决定了"删什么"；写入门作用于value侧，决定"写什么"；在固定大小的记忆状态中，擦得对不对比写得重不重更重要。
两者的贡献是加成的，不是冗余的。

研究者还测试了把擦除门从[0,1]扩展到[0,2]——允许"过度擦除"——结果在1.3B规模上没有显著收益。这说明在参数不太大的情况下，[0,1]的范围已经够用了。

---

🎨 第八章：一幅更大的图景——线性注意力的家族树

倘若把线性注意力家族的发展画成一张树状图，大致是这样的：

线性注意力（Katharopoulos et al., 2020）
│  └── 固定状态递归，无主动管理
│
├── 遗忘派（SSM/状态空间模型）
│   ├── Mamba ──→ Mamba-2（标量衰减 + SSD统一框架）
│   └── Mamba-3（复数状态 + MIMO + 指数梯形离散化）
│
└── 编辑派（Delta规则/快速权重）
    ├── DeltaNet（标量擦写，无衰减）
    ├── Gated DeltaNet（标量衰减 + 标量擦写）
    ├── KDA（逐通道衰减 + 标量擦写）  ← 将遗忘从"一个数"升级为"逐通道"
    └── Gated DeltaNet-2（逐通道衰减 + 逐通道擦除 + 逐通道写入）  ← 将编辑彻底解耦

可以看到一条清晰的主线：控制力度的精细化。 从"整块橡皮猛擦"（无衰减的线性注意力），到"用一把可调力度的刷子擦"（标量门控），到"刷子力道精细到每根毛"（逐通道门控），再到"左手擦、右手写、各有一套独立的精细化控制"（解耦门控）。

这条路还没走到头。论文在结语中没有明说，但留下的空间是：下一步也许是让擦除和写入之间能够通信——"我这边擦掉了一个关于位置的记忆，你那边就别再写位置相关的信息了"——又或者是给每个注意力头不同的擦除-写入策略。

---

🧪 第九章：坦诚的部分——哪些问题我们还不确定

一个负责任的文章应当承认它不知道什么。

这篇论文使用的是1.3B参数、100B tokens的"小规模公平配方"进行比较。这个规模的选择是合理的——在小规模上把所有对手公平比一遍，总比在一个不公正的大规模实验里得到一个可疑的结论要好。但是，Gated DeltaNet-2在更大规模（70B+）上的表现，目前是未知的。

论文没有做大规模验证，作者也没有对此做出推测。以往的经验告诉我们：架构创新从小规模到大规模的迁移，并非总能保持线性——有时小规模上看不出来的问题会在大规模上放大，有时小规模上的优势会在大规模上被"抹平"。

另一件事是：论文没有在真正的生产级长文本（比如128K-1M token的实际任务）上测试纯循环版本。RULER的8K已经能看出很多趋势，但工业界关心的百万级上下文——完整的代码仓库、整本书的情节追踪、跨越多小时的视频理解——还需要更大的验证。好在论文在吞吐量实验中展示Gated DeltaNet-2确实保持了线性缩放的特性，这意味着如果正确实现，它理论上应该能应对百万级上下文。

第三件事：作者没有提供解码延迟（inference latency）的对比数据。 论文只报告了训练吞吐量。这是论文的一个缺口——对于部署场景来说，单token的解码延迟往往比训练吞吐量更关键。不过，由于Gated DeltaNet-2在推理时只需要维护一个固定大小的状态矩阵和少量的门控参数，理论上它的解码延迟应该和KDA在同一量级，远低于标准Transformer。

---

🏁 尾声：松绑的手

回到那间教室。

在Gated DeltaNet-2之前，所有Delta规则的模型都像是被绑住双手的人。一手抓着黑板擦，一手握着粉笔——但被同一根绳子捆着。绳子的另一端连着一个旋钮，不管你拧到什么角度，两只手做的是同样力度的事。

Gated DeltaNet-2做的，就是把这根绳子解开。

从此，值日生的左手可以轻如羽毛地擦掉黑板左上角那些三天前的临时笔记，右手可以重如铁锤地写下今天最重要的公式。这两件事互不干扰，各自独立调节，配合着每一行每一列的记忆维度。

有一种类型的AI研究：不是"又一个SOTA"，不是"参数又涨了多少"，不是"榜单又拿了第一"。它是一个概念上的澄清：擦除和写入本质上不同，所以它们应该被分开对待。

这个洞察如此显而易见——以至于当你读完它的时候，你忍不住会质疑：为什么以前没人想到这个？

也许有些最好的想法，确实就是那种"读完之后你觉得自己也能想到"的想法。

三个人的团队，NVIDIA的实验室，2026年5月的一个普通星期四。他们解开了一根绳子。

线性注意力前进了一大步。

---

📚 参考文献

1. Hatamizadeh, A., Choi, Y., & Kautz, J. (2026). Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention. *arXiv:2605.22791*. 2. Yang, S., et al. (2024). Gated DeltaNet: Gated Linear Attention with Delta Rule. *arXiv:2412.06464*. 3. Kimi Team. (2025). KDA: Kimi Delta Attention. *arXiv:2510.26692*. 4. Dao, T., & Gu, A. (2024). Mamba-2: State Space Duality. *arXiv:2405.21060*. 5. Li, Y., et al. (2026). Mamba-3: Inference-First Linear-Time Sequence Modeling. *arXiv:2603.15569*.

---

#AI #线性注意力 #Architecture #GatedDeltaNet #Mamba #长文本 #智柴前沿实验室