CARVE:让循环模型学会回头看一眼自己的记忆
一个反直觉的事实
你记东西的时候,大脑不是只看新信息——你会先瞄一眼脑子里已经有什么,再决定要不要覆盖。比如你听到一个新电话号码,你会先想想自己是否已经记了一个,再决定是替换还是忽略。
但当前最先进的循环语言模型不是这样工作的。它们在决定"遗忘什么"时,只看新来的 token,完全不看自己已经存了什么。这就像一个失忆的图书管理员,每收到一本新书就随机扔掉一本旧书——他从不看书架上已经有什么。
Sayak Dutta 的论文《CARVE: Content-Aware Recurrent with Value Efficiency for Chunk-Parallel Linear Attention》解决了这个问题。核心想法简单得令人惊讶:让模型在决定遗忘之前,先看一眼自己的记忆。而且这个"看一眼"几乎不花任何计算成本。
背景:循环模型的遗忘困境
先说背景。Transformer 的问题是人尽皆知的——注意力机制是 O(T²) 复杂度,序列越长越慢。循环模型(如 Mamba、GDN 系列)走的是另一条路:把所有历史压缩成一个固定大小的状态矩阵 S,每来一个新 token 就更新这个矩阵。推理时是常数成本,与序列长度无关。
但压缩意味着遗忘。GDN-2 是当前最强的循环架构之一,它用一个 d_v × d_k 的矩阵门来决定每个位置该遗忘多少。问题在于:这个门只由新 token 计算,完全不看当前状态 S 里存了什么。
这带来三个耦合在一起的结构性缺陷:
1. 记忆盲门控:模型不知道自己存了什么就要决定擦除什么——可能擦掉重要信息,也可能保留无用信息。 2. 参数浪费:写入门是 d_v 维的向量投影,和值投影本身一样大,但实验表明一个标量就够了。 3. 训练效率杀手:值轴耦合在擦除门里,数学上阻止了 WY-form 三角块求解器的使用——这是让循环模型训练能和 Transformer 一样快的关键工具。没有它,训练速度退化到串行循环的水平。
CARVE 的解法:一个原则解决三个问题
CARVE 的核心洞察是一个架构约束:把所有门控限制在键轴(key axis)上。
这个约束听起来简单,但它同时解决了所有三个问题:
- 键轴门控不依赖值索引,所以块内耦合矩阵与值无关——WY-form 三角求解器原封不动地恢复了。
- 键轴门控的参数量是 d_k 而不是 d_v × d_k,大幅减少。
- 最关键的是:键轴门控可以做成"内容感知"的。
内容感知擦除:零成本看一眼记忆
怎么让门控看到记忆?最直接的想法是读取状态矩阵 S——但这会把显存带宽翻倍,完全不可接受。
CARVE 的巧妙之处在于:复用循环输出。循环核每次都会计算 o = S·q 作为输出,这个张量本来就要写回 HBM。CARVE 把它取出来,算一个块均值 m_c,通过一个零初始化的低秩投影喂给擦除门。
这个设计有几个精妙之处:
1. 零额外显存访问:o 本来就要写回 HBM,读它不增加任何流量。 2. 零初始化:训练开始时 U_b = 0,CARVE 和基线模型位级相同——不会破坏初始化稳定性。 3. 块内延迟:m_c 用的是当前块的平均输出,有一个块的延迟。但论文证明这个延迟引起的门控扰动只有 O(1/√L),实测偏差在所有块长度下都稳定在 0.18%。
标量写入门:少即是多
GDN-2 用一个 d_v 维向量作为写入门。CARVE 把它换成一个标量 w_{h,t}(每个头一个)。在 H=12, d_v=768 的配置下,写入门参数从 589,824 降到 9,216——减少 64 倍。论文还证明了对于单槽关联回忆,标量门是无损的(定理 15)。
实验结果:全面超越,零代价
在 1.3B 参数规模、100B FineWeb-Edu token、NVIDIA H100 上训练,三组种子平均:
- 语言建模:WikiText 困惑度 15.72 vs 基线 15.90,降 0.18(4.5σ 跨种子效应)。混合变体进一步到 15.41 vs 15.62。
- 常识推理:9 个基准上平均零样本准确率 +0.63 pp,领先所有循环模型。
- 上下文检索(RULER):在所有 S-NIAH 和 MK-NIAH 上下文长度上创纪录,6 个真实世界召回基准全部第一。
- 硬件效率:吞吐量在基线 0.4% 以内(测量噪声范围内),峰值显存 -13%,混合器参数 -19%。
理论保证:六条定理
CARVE 不只是工程改进,还有六条形式化定理支撑:
1. 包含层次:线性注意力 ⊊ delta rule ⊊ 标量门控 ⊊ 键轴门控 ⊊ CARVE——每一步都是严格扩展。 2. Lyapunov 稳定性:状态矩阵不会爆炸。 3. 梯度流:梯度不会消失或爆炸。 4. 表达力分离:CARVE 严格强于键轴门控基线。 5. 速度-精度 Pareto 前沿:CARVE 占据最优前沿。 6. 块化边界(定理 11):精确刻画了什么架构能用 WY-form 块求解器——GDN-2 不行,CARVE 行。
一个更深的洞察
CARVE 的故事让我想到一个设计哲学:约束即自由。
把门控限制在键轴上,看起来是减少了表达力——少了一个维度。但正是这个约束,让 WY-form 求解器重新可用,让内容感知门控变得可行,让参数量大幅下降。约束不是限制,而是打开了新的设计空间。
这和物理学里的规范对称性有异曲同工之妙:你限制理论的对称群,反而得到了更丰富的动力学。CARVE 限制门控的维度,反而得到了更强的模型。
也许 AI 架构设计的下一步,不是堆更多参数和更复杂的门,而是找到那些"刚好够用"的约束——让简单性本身成为力量。
---
论文:CARVE: Content-Aware Recurrent with Value Efficiency for Chunk-Parallel Linear Attention
作者:Sayak Dutta(独立研究者)
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens