CARVE：让循环模型学会回头看一眼自己的记忆

一个反直觉的事实

你记东西的时候，大脑不是只看新信息——你会先瞄一眼脑子里已经有什么，再决定要不要覆盖。比如你听到一个新电话号码，你会先想想自己是否已经记了一个，再决定是替换还是忽略。

但当前最先进的循环语言模型不是这样工作的。它们在决定"遗忘什么"时，只看新来的 token，完全不看自己已经存了什么。这就像一个失忆的图书管理员，每收到一本新书就随机扔掉一本旧书——他从不看书架上已经有什么。

Sayak Dutta 的论文《CARVE: Content-Aware Recurrent with Value Efficiency for Chunk-Parallel Linear Attention》解决了这个问题。核心想法简单得令人惊讶：让模型在决定遗忘之前，先看一眼自己的记忆。而且这个"看一眼"几乎不花任何计算成本。

背景：循环模型的遗忘困境

先说背景。Transformer 的问题是人尽皆知的——注意力机制是 O(T²) 复杂度，序列越长越慢。循环模型（如 Mamba、GDN 系列）走的是另一条路：把所有历史压缩成一个固定大小的状态矩阵 S，每来一个新 token 就更新这个矩阵。推理时是常数成本，与序列长度无关。

但压缩意味着遗忘。GDN-2 是当前最强的循环架构之一，它用一个 d_v × d_k 的矩阵门来决定每个位置该遗忘多少。问题在于：这个门只由新 token 计算，完全不看当前状态 S 里存了什么。

这带来三个耦合在一起的结构性缺陷：

1. 记忆盲门控：模型不知道自己存了什么就要决定擦除什么——可能擦掉重要信息，也可能保留无用信息。 2. 参数浪费：写入门是 d_v 维的向量投影，和值投影本身一样大，但实验表明一个标量就够了。 3. 训练效率杀手：值轴耦合在擦除门里，数学上阻止了 WY-form 三角块求解器的使用——这是让循环模型训练能和 Transformer 一样快的关键工具。没有它，训练速度退化到串行循环的水平。

CARVE 的解法：一个原则解决三个问题

CARVE 的核心洞察是一个架构约束：把所有门控限制在键轴（key axis）上。

这个约束听起来简单，但它同时解决了所有三个问题：

键轴门控不依赖值索引，所以块内耦合矩阵与值无关——WY-form 三角求解器原封不动地恢复了。
键轴门控的参数量是 d_k 而不是 d_v × d_k，大幅减少。
最关键的是：键轴门控可以做成"内容感知"的。

内容感知擦除：零成本看一眼记忆

怎么让门控看到记忆？最直接的想法是读取状态矩阵 S——但这会把显存带宽翻倍，完全不可接受。

CARVE 的巧妙之处在于：复用循环输出。循环核每次都会计算 o = S·q 作为输出，这个张量本来就要写回 HBM。CARVE 把它取出来，算一个块均值 m_c，通过一个零初始化的低秩投影喂给擦除门。

这个设计有几个精妙之处：

1. 零额外显存访问：o 本来就要写回 HBM，读它不增加任何流量。 2. 零初始化：训练开始时 U_b = 0，CARVE 和基线模型位级相同——不会破坏初始化稳定性。 3. 块内延迟：m_c 用的是当前块的平均输出，有一个块的延迟。但论文证明这个延迟引起的门控扰动只有 O(1/√L)，实测偏差在所有块长度下都稳定在 0.18%。

标量写入门：少即是多

GDN-2 用一个 d_v 维向量作为写入门。CARVE 把它换成一个标量 w_{h,t}（每个头一个）。在 H=12, d_v=768 的配置下，写入门参数从 589,824 降到 9,216——减少 64 倍。论文还证明了对于单槽关联回忆，标量门是无损的（定理 15）。

实验结果：全面超越，零代价

在 1.3B 参数规模、100B FineWeb-Edu token、NVIDIA H100 上训练，三组种子平均：

语言建模：WikiText 困惑度 15.72 vs 基线 15.90，降 0.18（4.5σ 跨种子效应）。混合变体进一步到 15.41 vs 15.62。
常识推理：9 个基准上平均零样本准确率 +0.63 pp，领先所有循环模型。
上下文检索（RULER）：在所有 S-NIAH 和 MK-NIAH 上下文长度上创纪录，6 个真实世界召回基准全部第一。
硬件效率：吞吐量在基线 0.4% 以内（测量噪声范围内），峰值显存 -13%，混合器参数 -19%。

最令人印象深刻的是：这些改进没有任何硬件代价。CARVE 不是用更多计算换更好性能，而是用更聪明的架构实现更好性能同时更省资源。

理论保证：六条定理

CARVE 不只是工程改进，还有六条形式化定理支撑：

1. 包含层次：线性注意力 ⊊ delta rule ⊊ 标量门控 ⊊ 键轴门控 ⊊ CARVE——每一步都是严格扩展。 2. Lyapunov 稳定性：状态矩阵不会爆炸。 3. 梯度流：梯度不会消失或爆炸。 4. 表达力分离：CARVE 严格强于键轴门控基线。 5. 速度-精度 Pareto 前沿：CARVE 占据最优前沿。 6. 块化边界（定理 11）：精确刻画了什么架构能用 WY-form 块求解器——GDN-2 不行，CARVE 行。

一个更深的洞察

CARVE 的故事让我想到一个设计哲学：约束即自由。

把门控限制在键轴上，看起来是减少了表达力——少了一个维度。但正是这个约束，让 WY-form 求解器重新可用，让内容感知门控变得可行，让参数量大幅下降。约束不是限制，而是打开了新的设计空间。

这和物理学里的规范对称性有异曲同工之妙：你限制理论的对称群，反而得到了更丰富的动力学。CARVE 限制门控的维度，反而得到了更强的模型。

也许 AI 架构设计的下一步，不是堆更多参数和更复杂的门，而是找到那些"刚好够用"的约束——让简单性本身成为力量。

---

论文：CARVE: Content-Aware Recurrent with Value Efficiency for Chunk-Parallel Linear Attention

作者：Sayak Dutta（独立研究者）