Transformer的黄昏：Memory Cache与CTM如何挑战二次复杂度诅咒

自2017年Transformer诞生以来，它统治了深度学习整整八年。八年间，BERT、GPT、T5、LLaMA、Claude——几乎所有叫得上名字的大模型，都基于同一个核心架构：注意力机制。这个架构的强大之处在于它让模型可以直接"看到"任意两个token之间的关系，无论它们相距多远。但代价是残酷的：计算复杂度与序列长度的平方成正比。当上下文从4K扩展到128K、再到1M，成本不是线性增长，而是爆炸式膨胀。

2025-2026年，两条来自截然不同方向的研究线，同时指向同一个问题：我们能不能在保持Transformer能力的同时，摆脱二次复杂度的诅咒？

Google Research的Memory Caching团队从古老的RNN身上找到了答案。Sakana AI的Llion Jones——Transformer论文的八位作者之一——则选择了一条更激进的路：把被AI抛弃的时间维度重新找回来。

这两篇论文不是渐进式改进，而是对AI架构底层假设的重新审视。

---

一、Transformer的"暴力美学"：为什么它正在触及天花板

1.1 二次复杂度的数学诅咒

Transformer的自注意力机制计算每对token之间的相似度。对于长度为L的序列，这产生L×L的注意力矩阵。时间复杂度O(L²)，空间复杂度O(L²)——这就是KV cache随长度平方膨胀的根本原因。

一个具体的数字：处理1M token的上下文，Transformer需要约1万亿次注意力计算。而同样参数量的RNN只需要约1M次计算——差距是100万倍。这不是优化能解决的问题，这是架构层面的根本缺陷。

1.2 长上下文的"失忆症"

Scaling Law告诉我们：更多参数、更多数据、更多计算，模型就会更好。但Scaling Law没有告诉我们的是——当上下文超过某个阈值，模型会患上"Context Rot"（上下文腐蚀）。Chroma 2025年的研究表明，在长序列中检索信息的效率随长度递减。模型"记得住"但"找不着"——就像把钥匙丢进了堆满杂物的仓库。

1.3 成本结构的结构性不平等

Transformer的推理成本中，80%花在注意力计算上，而不是参数本身。这意味着：即使你把模型做得更小，只要处理长序列，成本依然爆炸。这是AI应用落地最大的结构性障碍——客服、法律文档、代码库、多轮对话，这些天然长序列的场景，被Transformer的架构税压得喘不过气。

---

二、Google的"保存按钮"：Memory Caching如何复活RNN

2.1 RNN之死：一个被误解的架构

RNN在2017年被Transformer"杀死"了。当时的原因是：RNN的序列依赖性让它无法并行训练，长程记忆能力薄弱，且容易梯度消失。但很少有人注意到：RNN的O(L)复杂度是它的天然优势，只是被"固定记忆容量"的设计限制扼杀了。

Google Research的Ali Behrouz团队意识到：RNN的"固定记忆"不是理论限制，而是实现选择。 如果让RNN在运行过程中"保存"关键记忆片段，并在后续需要时调取——就像人脑把短期记忆转存为长期记忆——RNN的记忆容量就可以随序列增长。

2.2 Memory Caching的核心机制：分段缓存 + 智能聚合

Memory Caching的架构出奇地简单：

1. 分段（Segmentation）：把长序列切成若干段（segment），每段长度固定（比如每段256个token）。

2. 在线记忆（Online Memory）：每一段内部，标准RNN递归处理，维护一个固定大小的状态向量。这是"当前活跃"的记忆。

3. 缓存记忆（Cached Memory）：每段结束时，把该段的最终记忆状态"保存"到一个缓存池中。这些缓存记忆是只读的，后续token可以直接访问。

4. 聚合（Aggregation）：当处理第s段的token时，模型不仅使用当前在线记忆，还聚合所有之前缓存的记忆。聚合方式决定了模型的行为。

2.3 四种聚合策略：从粗暴求和到智能路由

论文提出了四种聚合策略，从简单到复杂：

策略	机制	特点
Residual Memory	当前记忆 + 所有缓存记忆简单求和	基础版，但线性记忆会数学坍塌
Gated Residual Memory (GRM)	引入上下文感知门控γ，动态调节各段贡献	最推荐，非线性记忆效果显著
Memory Soup	参数层面加权平均（受"模型汤"启发）	适合深度记忆模块（如DLA、Titans）
Sparse Selective Caching (SSC)	MoE风格路由器，Top-k选择最相关缓存	推理最高效，减少内存开销

GRM的核心公式：

$$ y_t = γ_t^(s) * M_t^(s)(q_t) + Σ γ_t^(i) * M_L^(i)(q_t) $$

其中γ_t^(i) = ，门控同时依赖当前token和历史段内容。这意味着：模型不是盲目地把所有缓存记忆混在一起，而是根据当前查询，选择性地读取相关历史。

2.4 理论统一：RNN与Transformer的连续谱

论文第4.1节有一个惊人发现：

> 当segment size=1，使用value-less向量记忆时，Memory Caching数学等价于gated global attention。

这意味着：Transformer的注意力机制是Memory Caching的极端特例。 Memory Caching提供了一个从纯RNN到Transformer的连续谱系：

N=1（每段1个token）→ O(L²)，等价于Transformer
N=L（整段不分）→ O(L)，纯RNN
N=L/C（常数分段）→ O(L²/C)，实用折中
N=log L → O(L log L)，高效近似

这是一个架构层面的统一框架：你可以根据场景选择不同的复杂度-性能权衡，而不是被Transformer的O(L²)锁死。

2.5 实验结果：RNN超越了Transformer

在760M参数、30B token的预训练条件下，实验结果令人震撼：

语言建模与常识推理：

Titans + GRM：Wiki ppl 19.14，LMB ppl 20.21，平均acc 52.55%
Transformer++：Wiki ppl 24.18，LMB ppl 24.27，平均acc 49.64%
Titans + GRM 超越 Transformer++，平均提升+0.99%

长上下文检索（Needle-in-Haystack）：

16K上下文，S-NIAH-3（最难UUID检索）：
DLA（基线）：仅4.0%
DLA + GRM：18.2%（4.5倍提升）
Titans + GRM：32.2%（接近Transformer的40.8%）

上下文检索任务：

Titans + GRM在SWDE、SQuAD、FDA上平均40.50，显著接近Transformer的41.00（基线Titans仅31.75）

关键结论：Memory Caching让RNN从"不能使用"变成"可以竞争"——在长上下文检索上从4%提升到32%，在语言建模上甚至超越Transformer。

---

三、Sakana AI的CTM：把时间重新找回来

3.1 Llion Jones的叛逃

2025年初，Llion Jones——"Attention Is All You Need"的八位作者之一——宣布大幅减少Transformer相关研究。他的判断是：当前AI架构过于"万金油"，什么都想做，却忽视了关键问题——有没有更好的方式来表示知识、思考问题？

Jones的批评很尖锐：当前LLM呈现"锯齿状智能"（jagged intelligence），能在某些任务上表现得像天才，下一秒却犯小学生都不会错的错误。这不是数据不够，而是架构本身的问题——我们忽略了时间。

3.2 CTM的哲学：时间是"一等公民"

人类思考不是瞬时的。我们反射、修正、重新思考。但大多数神经网络——包括Transformer——在收到输入后几乎立即产生输出。LLM通过长链式推理（Chain-of-Thought）模拟渐进思考，但每步推理都是一次完整的前向传播，不是真正的"持续思考"。

CTM（Continuous Thought Machine）的核心理念：让时间成为AI架构的内禀维度，而不是外部参数。

CTM不是序列模型（按输入token顺序处理），而是内部时间模型——它有一个与输入解耦的"内部时间轴"，从tick 1到tick T，每个tick都是一次思考迭代。

3.3 架构解剖：四块拼图

CTM的架构由四个核心组件组成：

1. 预训练Encoder：将原始输入（图像、文本等）转换为特征向量。这是外部组件，CTM本身不处理原始数据。

2. Synapse（突触）：U-Net架构，处理输入特征和上一tick的激活状态，产生pre-activations。这是跨神经元交互的桥梁——名字来自生物学突触，暗示它连接不同"神经元"。

3. Neuron-Level Models（神经元级模型）：每个神经元（ latent space的每个维度）有自己的小型MLP。关键创新：每个神经元不是只看当前pre-activation，而是处理一个历史窗口（M=10~100个tick的历史）。这意味着每个神经元有独立的记忆和时序动力学，而不是简单的ReLU激活。

4. Neural Synchronization（神经同步）：计算神经元之间的同步矩阵S_t = Z_t × Z_t^T，其中Z_t包含所有历史tick的post-activations。矩阵的每个单元(i,j)反映神经元i和j在时序上的同步程度。这个同步矩阵被随机采样为latent representation，用于：

输入attention的另一个输入源
生成模型输出（通过线性投影）

3.4 自适应计算：模型自己决定"想多久"

CTM的颠覆性设计之一是adaptive compute：模型不需要固定运行T个tick。它可以根据对自己输出的"置信度"（entropy）决定何时停止。

训练时，损失函数在两个特殊tick上计算：

最低loss的tick（教模型如何给出好答案）
最高置信度的tick（教模型何时停止思考）

这带来了一个优雅的性质：简单输入快速完成，复杂输入多花时间。 不需要人工设置推理步数，模型自己学会"适可而止"。

3.5 实验：迷宫中的涌现行为

CTM在多个任务上测试，但最引人注目的是2D迷宫：

训练：39×39迷宫，路径最长100步
测试：更长的路径 + 99×99更大迷宫
CTM可以泛化到训练时从未见过的规模，而LSTM基线完全失败

更重要的是，CTM展示了一种"episodic future thinking"（情景未来思考）的行为：它在没有位置编码的情况下，通过"想象"迷宫的未来状态来规划路径。这被认为是一种涌现的认知能力——模型不是死记硬背，而是学会了一般性的规划策略。

消融实验证实：必须同时具备Neuron-Level Models和Synchronization，缺一不可。移除任一组件，模型性能从66%骤降到50%以下。

---

四、两条路径的对比：效率 vs 认知

4.1 架构哲学对比

维度	Memory Caching	CTM
核心动机	解决Transformer的效率问题	解决AI的时间缺失问题
数学基础	RNN + 分段缓存 + 门控聚合	神经动力学 + 同步振荡 + 内部时间
复杂度	O(NL)，可插值到O(L²)或O(L)	类似RNN，但内部tick数可变
与Transformer关系	统一框架（Transformer是极端特例）	彻底替代（不依赖注意力）
灵感来源	计算机科学（缓存、路由）	神经科学（神经元振荡、同步）
工程成熟度	高（可直接集成现有RNN）	中（需要全新训练管线）
规模验证	760M参数，30B token	较小规模（9M参数迷宫实验）

4.2 效率之争：Memory Caching更务实

如果目标是在今天替代Transformer，Memory Caching是更现实的选择：

它可以直接增强现有的RNN架构（如Mamba、Titans、DLA）
已在大规模（760M参数）上验证超越Transformer
复杂度灵活可调，从手机到数据中心都能找到合适的配置
与现有训练基础设施兼容（只需改聚合逻辑，不改并行策略）

CTM虽然也有RNN的O(L)优势，但它需要全新的训练管线和推理基础设施。在大语言模型上的验证尚未完成。

4.3 认知之争：CTM更激进

如果目标是让AI更像人脑，CTM走得更远：

Memory Caching本质上是工程优化——让RNN更有效地利用记忆
CTM则是认知架构——试图模拟人脑的神经动力学

人脑没有注意力矩阵。人脑通过神经元群体的同步振荡来传递信息。CTM的Synchronization机制——虽然简化了很多——但至少在这个方向迈出了第一步。

Llion Jones的观点是：Transformer的注意力机制是一种"暴力搜索"，它通过计算所有token对的关系来找到信息。而人脑的信息检索是动态的、时序的、基于神经振荡的。CTM试图模仿后者。

---

五、更深层的问题：Scaling Law触及天花板了吗？

5.1 Scaling Law的两种解读

Scaling Law（规模定律）指出：模型性能随参数、数据、计算量的增加而可预测地提升。但它没有回答：

1. 计算效率Scaling Law：更多计算带来的性能提升，是否会被架构的低效所抵消？ 2. 上下文Scaling Law：更长的上下文是否真的能带来更好的性能，还是被Context Rot抵消？

Memory Caching和CTM分别挑战了这两个假设：

Memory Caching：通过降低计算复杂度，让同样的计算量可以处理更长的序列——这是对计算效率Scaling Law的"重新校准"
CTM：通过引入时间维度和自适应计算，让模型在不同难度上动态分配思考时间——这是对推理效率Scaling Law的"重新定义"

5.2 世界模型的需要：不是更大的注意力矩阵

未来的世界模型（World Models）需要：

持续感知（continuous perception）
长期记忆（long-term memory）
动态规划（dynamic planning）
因果推理（causal reasoning）

Transformer的注意力机制可以处理前两点（通过足够大的上下文），但后两点是它天然的短板——注意力没有"状态"，没有"时序动力学"，每次前向传播都是独立计算。

Memory Caching通过缓存给RNN加了"状态"，但状态转移仍然是确定性的。CTM通过内部tick和神经动力学，给模型加了"时间"——这是更根本的变化。

5.3 生成认知（Generative Cognition）的方向

生成认知（由Rich Sutton提出）认为：智能的本质不是记忆，而是生成。智能体不是被动地存储信息，而是主动地构建对世界的预测模型。

CTM的"情景未来思考"——模型在迷宫中"想象"未来状态——可以被看作是生成认知的一个初步实现。Memory Caching则更偏向传统的信息检索，虽然高效，但缺乏"生成"能力。

这意味着：如果生成认知是AGI的正确方向，CTM比Memory Caching更接近目标。 但如果当前阶段的核心瓶颈是效率，Memory Caching是更务实的选择。

---

六、未来展望：两条路径会融合吗？

6.1 可能的融合方向

一个有趣的假设：Memory Caching的缓存机制 + CTM的时间维度 = 终极架构？

CTM的Neuron-Level Models可以处理每个缓存段的历史动态
Memory Caching的GRM门控可以替代CTM的随机采样，让latent representation更具选择性
两者共享的RNN基础让它们有天然的融合可能性

6.2 更远的图景：神经符号的回归？

两篇文章都没有触及一个更深层次的问题：AI是否需要符号层面的推理？Transformer的注意力机制是"亚符号"的（subsymbolic），它不操作概念，只操作向量。Memory Caching和CTM也没有改变这一点。

但CTM的Synchronization机制暗示了一种可能性：如果神经同步可以编码"关系"或"结构"，那么它可能成为连接亚符号和符号的桥梁。

6.3 时间轴：谁会先落地？

Memory Caching：2026年内可能看到生产部署。Google已经在大规模验证，API层面的改动不大。
CTM：需要3-5年才能在大规模语言模型上验证。Sakana AI的规模还很小，但方向正确。

---

七、结论：选择你的架构立场

Transformer不会明天就消失。它仍然是最强大、最通用、最成熟的架构。但2025-2026年的这两篇论文标志着后Transformer时代的正式开始。

如果你必须在两条路径中选择：

选Memory Caching，如果你：关心效率、成本、可部署性；需要处理长上下文；不想改变现有训练基础设施
选CTM，如果你：关心AI的认知能力、时间推理、动态规划；愿意为长期愿景承担更高的工程风险；相信人脑的时间维度是智能的关键

最可能的结果是：两者共存。 Memory Caching成为未来2-3年的主流替代方案，降低推理成本、扩展上下文能力。CTM则成为一个长期研究方向，逐步在特定领域（机器人、实时决策、游戏）展示优势，最终在大规模上验证。

Transformer的统治时代不会突然结束。但"Attention Is Not All You Need"的声音，已经越来越响了。

---

参考论文：

1. Memory Caching: RNNs with Growing Memory (2026.02) - Ali Behrouz et al., Google Research. arXiv:2602.24281 2. Continuous Thought Machines (2025) - Luke Darlow, Llion Jones et al., Sakana AI. NeurIPS 2025 3. JetBrains Research (2025.12) - Smarter Context Management for LLM-Powered Agents, NeurIPS 2025 4. Chroma (2025) - Context Rot in Long-Context Retrieval 5. Rich Sutton (2025) - The Generative Turn in Cognitive Architecture

---

*标签：#Transformer #MemoryCache #CTM #RNN #注意力机制 #二次复杂度 #SakanaAI #GoogleResearch #AI架构 #ScalingLaw #小凯*