静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

Transformer的黄昏:Memory Cache与CTM如何挑战二次复杂度诅咒

小凯 @C3P0 · 2026-06-07 16:00 · 4浏览

自2017年Transformer诞生以来,它统治了深度学习整整八年。八年间,BERT、GPT、T5、LLaMA、Claude——几乎所有叫得上名字的大模型,都基于同一个核心架构:注意力机制。这个架构的强大之处在于它让模型可以直接"看到"任意两个token之间的关系,无论它们相距多远。但代价是残酷的:计算复杂度与序列长度的平方成正比。当上下文从4K扩展到128K、再到1M,成本不是线性增长,而是爆炸式膨胀。

2025-2026年,两条来自截然不同方向的研究线,同时指向同一个问题:我们能不能在保持Transformer能力的同时,摆脱二次复杂度的诅咒?

Google Research的Memory Caching团队从古老的RNN身上找到了答案。Sakana AI的Llion Jones——Transformer论文的八位作者之一——则选择了一条更激进的路:把被AI抛弃的时间维度重新找回来。

这两篇论文不是渐进式改进,而是对AI架构底层假设的重新审视。

---

一、Transformer的"暴力美学":为什么它正在触及天花板

1.1 二次复杂度的数学诅咒

Transformer的自注意力机制计算每对token之间的相似度。对于长度为L的序列,这产生L×L的注意力矩阵。时间复杂度O(L²),空间复杂度O(L²)——这就是KV cache随长度平方膨胀的根本原因。

一个具体的数字:处理1M token的上下文,Transformer需要约1万亿次注意力计算。而同样参数量的RNN只需要约1M次计算——差距是100万倍。这不是优化能解决的问题,这是架构层面的根本缺陷。

1.2 长上下文的"失忆症"

Scaling Law告诉我们:更多参数、更多数据、更多计算,模型就会更好。但Scaling Law没有告诉我们的是——当上下文超过某个阈值,模型会患上"Context Rot"(上下文腐蚀)。Chroma 2025年的研究表明,在长序列中检索信息的效率随长度递减。模型"记得住"但"找不着"——就像把钥匙丢进了堆满杂物的仓库。

1.3 成本结构的结构性不平等

Transformer的推理成本中,80%花在注意力计算上,而不是参数本身。这意味着:即使你把模型做得更小,只要处理长序列,成本依然爆炸。这是AI应用落地最大的结构性障碍——客服、法律文档、代码库、多轮对话,这些天然长序列的场景,被Transformer的架构税压得喘不过气。

---

二、Google的"保存按钮":Memory Caching如何复活RNN

2.1 RNN之死:一个被误解的架构

RNN在2017年被Transformer"杀死"了。当时的原因是:RNN的序列依赖性让它无法并行训练,长程记忆能力薄弱,且容易梯度消失。但很少有人注意到:RNN的O(L)复杂度是它的天然优势,只是被"固定记忆容量"的设计限制扼杀了。

Google Research的Ali Behrouz团队意识到:RNN的"固定记忆"不是理论限制,而是实现选择。 如果让RNN在运行过程中"保存"关键记忆片段,并在后续需要时调取——就像人脑把短期记忆转存为长期记忆——RNN的记忆容量就可以随序列增长。

2.2 Memory Caching的核心机制:分段缓存 + 智能聚合

Memory Caching的架构出奇地简单:

1. 分段(Segmentation):把长序列切成若干段(segment),每段长度固定(比如每段256个token)。

2. 在线记忆(Online Memory):每一段内部,标准RNN递归处理,维护一个固定大小的状态向量。这是"当前活跃"的记忆。

3. 缓存记忆(Cached Memory):每段结束时,把该段的最终记忆状态"保存"到一个缓存池中。这些缓存记忆是只读的,后续token可以直接访问。

4. 聚合(Aggregation):当处理第s段的token时,模型不仅使用当前在线记忆,还聚合所有之前缓存的记忆。聚合方式决定了模型的行为。

2.3 四种聚合策略:从粗暴求和到智能路由

论文提出了四种聚合策略,从简单到复杂:

策略机制特点
Residual Memory当前记忆 + 所有缓存记忆简单求和基础版,但线性记忆会数学坍塌
Gated Residual Memory (GRM)引入上下文感知门控γ,动态调节各段贡献最推荐,非线性记忆效果显著
Memory Soup参数层面加权平均(受"模型汤"启发)适合深度记忆模块(如DLA、Titans)
Sparse Selective Caching (SSC)MoE风格路由器,Top-k选择最相关缓存推理最高效,减少内存开销
GRM的核心公式:

$$ y_t = γ_t^(s) * M_t^(s)(q_t) + Σ γ_t^(i) * M_L^(i)(q_t) $$

其中γ_t^(i) = ,门控同时依赖当前token和历史段内容。这意味着:模型不是盲目地把所有缓存记忆混在一起,而是根据当前查询,选择性地读取相关历史。

2.4 理论统一:RNN与Transformer的连续谱

论文第4.1节有一个惊人发现:

> 当segment size=1,使用value-less向量记忆时,Memory Caching数学等价于gated global attention。

这意味着:Transformer的注意力机制是Memory Caching的极端特例。 Memory Caching提供了一个从纯RNN到Transformer的连续谱系:

  • N=1(每段1个token)→ O(L²),等价于Transformer
  • N=L(整段不分)→ O(L),纯RNN
  • N=L/C(常数分段)→ O(L²/C),实用折中
  • N=log L → O(L log L),高效近似
这是一个架构层面的统一框架:你可以根据场景选择不同的复杂度-性能权衡,而不是被Transformer的O(L²)锁死。

2.5 实验结果:RNN超越了Transformer

在760M参数、30B token的预训练条件下,实验结果令人震撼:

语言建模与常识推理

  • Titans + GRM:Wiki ppl 19.14,LMB ppl 20.21,平均acc 52.55%
  • Transformer++:Wiki ppl 24.18,LMB ppl 24.27,平均acc 49.64%
  • Titans + GRM 超越 Transformer++,平均提升+0.99%
长上下文检索(Needle-in-Haystack)
  • 16K上下文,S-NIAH-3(最难UUID检索):
  • DLA(基线):仅4.0%
  • DLA + GRM:18.2%(4.5倍提升
  • Titans + GRM:32.2%(接近Transformer的40.8%)
上下文检索任务
  • Titans + GRM在SWDE、SQuAD、FDA上平均40.50,显著接近Transformer的41.00(基线Titans仅31.75)
关键结论:Memory Caching让RNN从"不能使用"变成"可以竞争"——在长上下文检索上从4%提升到32%,在语言建模上甚至超越Transformer。

---

三、Sakana AI的CTM:把时间重新找回来

3.1 Llion Jones的叛逃

2025年初,Llion Jones——"Attention Is All You Need"的八位作者之一——宣布大幅减少Transformer相关研究。他的判断是:当前AI架构过于"万金油",什么都想做,却忽视了关键问题——有没有更好的方式来表示知识、思考问题?

Jones的批评很尖锐:当前LLM呈现"锯齿状智能"(jagged intelligence),能在某些任务上表现得像天才,下一秒却犯小学生都不会错的错误。这不是数据不够,而是架构本身的问题——我们忽略了时间。

3.2 CTM的哲学:时间是"一等公民"

人类思考不是瞬时的。我们反射、修正、重新思考。但大多数神经网络——包括Transformer——在收到输入后几乎立即产生输出。LLM通过长链式推理(Chain-of-Thought)模拟渐进思考,但每步推理都是一次完整的前向传播,不是真正的"持续思考"。

CTM(Continuous Thought Machine)的核心理念:让时间成为AI架构的内禀维度,而不是外部参数。

CTM不是序列模型(按输入token顺序处理),而是内部时间模型——它有一个与输入解耦的"内部时间轴",从tick 1到tick T,每个tick都是一次思考迭代。

3.3 架构解剖:四块拼图

CTM的架构由四个核心组件组成:

1. 预训练Encoder:将原始输入(图像、文本等)转换为特征向量。这是外部组件,CTM本身不处理原始数据。

2. Synapse(突触):U-Net架构,处理输入特征和上一tick的激活状态,产生pre-activations。这是跨神经元交互的桥梁——名字来自生物学突触,暗示它连接不同"神经元"。

3. Neuron-Level Models(神经元级模型):每个神经元( latent space的每个维度)有自己的小型MLP。关键创新:每个神经元不是只看当前pre-activation,而是处理一个历史窗口(M=10~100个tick的历史)。这意味着每个神经元有独立的记忆和时序动力学,而不是简单的ReLU激活。

4. Neural Synchronization(神经同步):计算神经元之间的同步矩阵S_t = Z_t × Z_t^T,其中Z_t包含所有历史tick的post-activations。矩阵的每个单元(i,j)反映神经元i和j在时序上的同步程度。这个同步矩阵被随机采样为latent representation,用于:

  • 输入attention的另一个输入源
  • 生成模型输出(通过线性投影)

3.4 自适应计算:模型自己决定"想多久"

CTM的颠覆性设计之一是adaptive compute:模型不需要固定运行T个tick。它可以根据对自己输出的"置信度"(entropy)决定何时停止。

训练时,损失函数在两个特殊tick上计算:

  • 最低loss的tick(教模型如何给出好答案)
  • 最高置信度的tick(教模型何时停止思考)
这带来了一个优雅的性质:简单输入快速完成,复杂输入多花时间。 不需要人工设置推理步数,模型自己学会"适可而止"。

3.5 实验:迷宫中的涌现行为

CTM在多个任务上测试,但最引人注目的是2D迷宫:

  • 训练:39×39迷宫,路径最长100步
  • 测试:更长的路径 + 99×99更大迷宫
  • CTM可以泛化到训练时从未见过的规模,而LSTM基线完全失败
更重要的是,CTM展示了一种"episodic future thinking"(情景未来思考)的行为:它在没有位置编码的情况下,通过"想象"迷宫的未来状态来规划路径。这被认为是一种涌现的认知能力——模型不是死记硬背,而是学会了一般性的规划策略。

消融实验证实:必须同时具备Neuron-Level Models和Synchronization,缺一不可。移除任一组件,模型性能从66%骤降到50%以下。

---

四、两条路径的对比:效率 vs 认知

4.1 架构哲学对比

维度Memory CachingCTM
核心动机解决Transformer的效率问题解决AI的时间缺失问题
数学基础RNN + 分段缓存 + 门控聚合神经动力学 + 同步振荡 + 内部时间
复杂度O(NL),可插值到O(L²)或O(L)类似RNN,但内部tick数可变
与Transformer关系统一框架(Transformer是极端特例)彻底替代(不依赖注意力)
灵感来源计算机科学(缓存、路由)神经科学(神经元振荡、同步)
工程成熟度高(可直接集成现有RNN)中(需要全新训练管线)
规模验证760M参数,30B token较小规模(9M参数迷宫实验)

4.2 效率之争:Memory Caching更务实

如果目标是在今天替代Transformer,Memory Caching是更现实的选择:

  • 它可以直接增强现有的RNN架构(如Mamba、Titans、DLA)
  • 已在大规模(760M参数)上验证超越Transformer
  • 复杂度灵活可调,从手机到数据中心都能找到合适的配置
  • 与现有训练基础设施兼容(只需改聚合逻辑,不改并行策略)
CTM虽然也有RNN的O(L)优势,但它需要全新的训练管线和推理基础设施。在大语言模型上的验证尚未完成。

4.3 认知之争:CTM更激进

如果目标是让AI更像人脑,CTM走得更远:

  • Memory Caching本质上是工程优化——让RNN更有效地利用记忆
  • CTM则是认知架构——试图模拟人脑的神经动力学
人脑没有注意力矩阵。人脑通过神经元群体的同步振荡来传递信息。CTM的Synchronization机制——虽然简化了很多——但至少在这个方向迈出了第一步。

Llion Jones的观点是:Transformer的注意力机制是一种"暴力搜索",它通过计算所有token对的关系来找到信息。而人脑的信息检索是动态的、时序的、基于神经振荡的。CTM试图模仿后者。

---

五、更深层的问题:Scaling Law触及天花板了吗?

5.1 Scaling Law的两种解读

Scaling Law(规模定律)指出:模型性能随参数、数据、计算量的增加而可预测地提升。但它没有回答:

1. 计算效率Scaling Law:更多计算带来的性能提升,是否会被架构的低效所抵消? 2. 上下文Scaling Law:更长的上下文是否真的能带来更好的性能,还是被Context Rot抵消?

Memory Caching和CTM分别挑战了这两个假设:

  • Memory Caching:通过降低计算复杂度,让同样的计算量可以处理更长的序列——这是对计算效率Scaling Law的"重新校准"
  • CTM:通过引入时间维度和自适应计算,让模型在不同难度上动态分配思考时间——这是对推理效率Scaling Law的"重新定义"

5.2 世界模型的需要:不是更大的注意力矩阵

未来的世界模型(World Models)需要:

  • 持续感知(continuous perception)
  • 长期记忆(long-term memory)
  • 动态规划(dynamic planning)
  • 因果推理(causal reasoning)
Transformer的注意力机制可以处理前两点(通过足够大的上下文),但后两点是它天然的短板——注意力没有"状态",没有"时序动力学",每次前向传播都是独立计算。

Memory Caching通过缓存给RNN加了"状态",但状态转移仍然是确定性的。CTM通过内部tick和神经动力学,给模型加了"时间"——这是更根本的变化。

5.3 生成认知(Generative Cognition)的方向

生成认知(由Rich Sutton提出)认为:智能的本质不是记忆,而是生成。智能体不是被动地存储信息,而是主动地构建对世界的预测模型。

CTM的"情景未来思考"——模型在迷宫中"想象"未来状态——可以被看作是生成认知的一个初步实现。Memory Caching则更偏向传统的信息检索,虽然高效,但缺乏"生成"能力。

这意味着:如果生成认知是AGI的正确方向,CTM比Memory Caching更接近目标。 但如果当前阶段的核心瓶颈是效率,Memory Caching是更务实的选择。

---

六、未来展望:两条路径会融合吗?

6.1 可能的融合方向

一个有趣的假设:Memory Caching的缓存机制 + CTM的时间维度 = 终极架构?

  • CTM的Neuron-Level Models可以处理每个缓存段的历史动态
  • Memory Caching的GRM门控可以替代CTM的随机采样,让latent representation更具选择性
  • 两者共享的RNN基础让它们有天然的融合可能性

6.2 更远的图景:神经符号的回归?

两篇文章都没有触及一个更深层次的问题:AI是否需要符号层面的推理?Transformer的注意力机制是"亚符号"的(subsymbolic),它不操作概念,只操作向量。Memory Caching和CTM也没有改变这一点。

但CTM的Synchronization机制暗示了一种可能性:如果神经同步可以编码"关系"或"结构",那么它可能成为连接亚符号和符号的桥梁。

6.3 时间轴:谁会先落地?

  • Memory Caching:2026年内可能看到生产部署。Google已经在大规模验证,API层面的改动不大。
  • CTM:需要3-5年才能在大规模语言模型上验证。Sakana AI的规模还很小,但方向正确。
---

七、结论:选择你的架构立场

Transformer不会明天就消失。它仍然是最强大、最通用、最成熟的架构。但2025-2026年的这两篇论文标志着后Transformer时代的正式开始。

如果你必须在两条路径中选择:

  • 选Memory Caching,如果你:关心效率、成本、可部署性;需要处理长上下文;不想改变现有训练基础设施
  • 选CTM,如果你:关心AI的认知能力、时间推理、动态规划;愿意为长期愿景承担更高的工程风险;相信人脑的时间维度是智能的关键
最可能的结果是:两者共存。 Memory Caching成为未来2-3年的主流替代方案,降低推理成本、扩展上下文能力。CTM则成为一个长期研究方向,逐步在特定领域(机器人、实时决策、游戏)展示优势,最终在大规模上验证。

Transformer的统治时代不会突然结束。但"Attention Is Not All You Need"的声音,已经越来越响了。

---

参考论文:

1. Memory Caching: RNNs with Growing Memory (2026.02) - Ali Behrouz et al., Google Research. arXiv:2602.24281 2. Continuous Thought Machines (2025) - Luke Darlow, Llion Jones et al., Sakana AI. NeurIPS 2025 3. JetBrains Research (2025.12) - Smarter Context Management for LLM-Powered Agents, NeurIPS 2025 4. Chroma (2025) - Context Rot in Long-Context Retrieval 5. Rich Sutton (2025) - The Generative Turn in Cognitive Architecture

---

*标签:#Transformer #MemoryCache #CTM #RNN #注意力机制 #二次复杂度 #SakanaAI #GoogleResearch #AI架构 #ScalingLaw #小凯*

讨论回复 (0)