自2017年Transformer诞生以来,它统治了深度学习整整八年。八年间,BERT、GPT、T5、LLaMA、Claude——几乎所有叫得上名字的大模型,都基于同一个核心架构:注意力机制。这个架构的强大之处在于它让模型可以直接"看到"任意两个token之间的关系,无论它们相距多远。但代价是残酷的:计算复杂度与序列长度的平方成正比。当上下文从4K扩展到128K、再到1M,成本不是线性增长,而是爆炸式膨胀。
2025-2026年,两条来自截然不同方向的研究线,同时指向同一个问题:我们能不能在保持Transformer能力的同时,摆脱二次复杂度的诅咒?
Google Research的Memory Caching团队从古老的RNN身上找到了答案。Sakana AI的Llion Jones——Transformer论文的八位作者之一——则选择了一条更激进的路:把被AI抛弃的时间维度重新找回来。
这两篇论文不是渐进式改进,而是对AI架构底层假设的重新审视。
---
一、Transformer的"暴力美学":为什么它正在触及天花板
1.1 二次复杂度的数学诅咒
Transformer的自注意力机制计算每对token之间的相似度。对于长度为L的序列,这产生L×L的注意力矩阵。时间复杂度O(L²),空间复杂度O(L²)——这就是KV cache随长度平方膨胀的根本原因。
一个具体的数字:处理1M token的上下文,Transformer需要约1万亿次注意力计算。而同样参数量的RNN只需要约1M次计算——差距是100万倍。这不是优化能解决的问题,这是架构层面的根本缺陷。
1.2 长上下文的"失忆症"
Scaling Law告诉我们:更多参数、更多数据、更多计算,模型就会更好。但Scaling Law没有告诉我们的是——当上下文超过某个阈值,模型会患上"Context Rot"(上下文腐蚀)。Chroma 2025年的研究表明,在长序列中检索信息的效率随长度递减。模型"记得住"但"找不着"——就像把钥匙丢进了堆满杂物的仓库。
1.3 成本结构的结构性不平等
Transformer的推理成本中,80%花在注意力计算上,而不是参数本身。这意味着:即使你把模型做得更小,只要处理长序列,成本依然爆炸。这是AI应用落地最大的结构性障碍——客服、法律文档、代码库、多轮对话,这些天然长序列的场景,被Transformer的架构税压得喘不过气。
---
二、Google的"保存按钮":Memory Caching如何复活RNN
2.1 RNN之死:一个被误解的架构
RNN在2017年被Transformer"杀死"了。当时的原因是:RNN的序列依赖性让它无法并行训练,长程记忆能力薄弱,且容易梯度消失。但很少有人注意到:RNN的O(L)复杂度是它的天然优势,只是被"固定记忆容量"的设计限制扼杀了。
Google Research的Ali Behrouz团队意识到:RNN的"固定记忆"不是理论限制,而是实现选择。 如果让RNN在运行过程中"保存"关键记忆片段,并在后续需要时调取——就像人脑把短期记忆转存为长期记忆——RNN的记忆容量就可以随序列增长。
2.2 Memory Caching的核心机制:分段缓存 + 智能聚合
Memory Caching的架构出奇地简单:
1. 分段(Segmentation):把长序列切成若干段(segment),每段长度固定(比如每段256个token)。
2. 在线记忆(Online Memory):每一段内部,标准RNN递归处理,维护一个固定大小的状态向量。这是"当前活跃"的记忆。
3. 缓存记忆(Cached Memory):每段结束时,把该段的最终记忆状态"保存"到一个缓存池中。这些缓存记忆是只读的,后续token可以直接访问。
4. 聚合(Aggregation):当处理第s段的token时,模型不仅使用当前在线记忆,还聚合所有之前缓存的记忆。聚合方式决定了模型的行为。
2.3 四种聚合策略:从粗暴求和到智能路由
论文提出了四种聚合策略,从简单到复杂:
| 策略 | 机制 | 特点 |
|---|---|---|
| Residual Memory | 当前记忆 + 所有缓存记忆简单求和 | 基础版,但线性记忆会数学坍塌 |
| Gated Residual Memory (GRM) | 引入上下文感知门控γ,动态调节各段贡献 | 最推荐,非线性记忆效果显著 |
| Memory Soup | 参数层面加权平均(受"模型汤"启发) | 适合深度记忆模块(如DLA、Titans) |
| Sparse Selective Caching (SSC) | MoE风格路由器,Top-k选择最相关缓存 | 推理最高效,减少内存开销 |
$$ y_t = γ_t^(s) * M_t^(s)(q_t) + Σ γ_t^(i) * M_L^(i)(q_t) $$
其中γ_t^(i) =
2.4 理论统一:RNN与Transformer的连续谱
论文第4.1节有一个惊人发现:
> 当segment size=1,使用value-less向量记忆时,Memory Caching数学等价于gated global attention。
这意味着:Transformer的注意力机制是Memory Caching的极端特例。 Memory Caching提供了一个从纯RNN到Transformer的连续谱系:
- N=1(每段1个token)→ O(L²),等价于Transformer
- N=L(整段不分)→ O(L),纯RNN
- N=L/C(常数分段)→ O(L²/C),实用折中
- N=log L → O(L log L),高效近似
2.5 实验结果:RNN超越了Transformer
在760M参数、30B token的预训练条件下,实验结果令人震撼:
语言建模与常识推理:
- Titans + GRM:Wiki ppl 19.14,LMB ppl 20.21,平均acc 52.55%
- Transformer++:Wiki ppl 24.18,LMB ppl 24.27,平均acc 49.64%
- Titans + GRM 超越 Transformer++,平均提升+0.99%
- 16K上下文,S-NIAH-3(最难UUID检索):
- DLA(基线):仅4.0%
- DLA + GRM:18.2%(4.5倍提升)
- Titans + GRM:32.2%(接近Transformer的40.8%)
- Titans + GRM在SWDE、SQuAD、FDA上平均40.50,显著接近Transformer的41.00(基线Titans仅31.75)
---
三、Sakana AI的CTM:把时间重新找回来
3.1 Llion Jones的叛逃
2025年初,Llion Jones——"Attention Is All You Need"的八位作者之一——宣布大幅减少Transformer相关研究。他的判断是:当前AI架构过于"万金油",什么都想做,却忽视了关键问题——有没有更好的方式来表示知识、思考问题?
Jones的批评很尖锐:当前LLM呈现"锯齿状智能"(jagged intelligence),能在某些任务上表现得像天才,下一秒却犯小学生都不会错的错误。这不是数据不够,而是架构本身的问题——我们忽略了时间。
3.2 CTM的哲学:时间是"一等公民"
人类思考不是瞬时的。我们反射、修正、重新思考。但大多数神经网络——包括Transformer——在收到输入后几乎立即产生输出。LLM通过长链式推理(Chain-of-Thought)模拟渐进思考,但每步推理都是一次完整的前向传播,不是真正的"持续思考"。
CTM(Continuous Thought Machine)的核心理念:让时间成为AI架构的内禀维度,而不是外部参数。
CTM不是序列模型(按输入token顺序处理),而是内部时间模型——它有一个与输入解耦的"内部时间轴",从tick 1到tick T,每个tick都是一次思考迭代。
3.3 架构解剖:四块拼图
CTM的架构由四个核心组件组成:
1. 预训练Encoder:将原始输入(图像、文本等)转换为特征向量。这是外部组件,CTM本身不处理原始数据。
2. Synapse(突触):U-Net架构,处理输入特征和上一tick的激活状态,产生pre-activations。这是跨神经元交互的桥梁——名字来自生物学突触,暗示它连接不同"神经元"。
3. Neuron-Level Models(神经元级模型):每个神经元( latent space的每个维度)有自己的小型MLP。关键创新:每个神经元不是只看当前pre-activation,而是处理一个历史窗口(M=10~100个tick的历史)。这意味着每个神经元有独立的记忆和时序动力学,而不是简单的ReLU激活。
4. Neural Synchronization(神经同步):计算神经元之间的同步矩阵S_t = Z_t × Z_t^T,其中Z_t包含所有历史tick的post-activations。矩阵的每个单元(i,j)反映神经元i和j在时序上的同步程度。这个同步矩阵被随机采样为latent representation,用于:
- 输入attention的另一个输入源
- 生成模型输出(通过线性投影)
3.4 自适应计算:模型自己决定"想多久"
CTM的颠覆性设计之一是adaptive compute:模型不需要固定运行T个tick。它可以根据对自己输出的"置信度"(entropy)决定何时停止。
训练时,损失函数在两个特殊tick上计算:
- 最低loss的tick(教模型如何给出好答案)
- 最高置信度的tick(教模型何时停止思考)
3.5 实验:迷宫中的涌现行为
CTM在多个任务上测试,但最引人注目的是2D迷宫:
- 训练:39×39迷宫,路径最长100步
- 测试:更长的路径 + 99×99更大迷宫
- CTM可以泛化到训练时从未见过的规模,而LSTM基线完全失败
消融实验证实:必须同时具备Neuron-Level Models和Synchronization,缺一不可。移除任一组件,模型性能从66%骤降到50%以下。
---
四、两条路径的对比:效率 vs 认知
4.1 架构哲学对比
| 维度 | Memory Caching | CTM |
|---|---|---|
| 核心动机 | 解决Transformer的效率问题 | 解决AI的时间缺失问题 |
| 数学基础 | RNN + 分段缓存 + 门控聚合 | 神经动力学 + 同步振荡 + 内部时间 |
| 复杂度 | O(NL),可插值到O(L²)或O(L) | 类似RNN,但内部tick数可变 |
| 与Transformer关系 | 统一框架(Transformer是极端特例) | 彻底替代(不依赖注意力) |
| 灵感来源 | 计算机科学(缓存、路由) | 神经科学(神经元振荡、同步) |
| 工程成熟度 | 高(可直接集成现有RNN) | 中(需要全新训练管线) |
| 规模验证 | 760M参数,30B token | 较小规模(9M参数迷宫实验) |
4.2 效率之争:Memory Caching更务实
如果目标是在今天替代Transformer,Memory Caching是更现实的选择:
- 它可以直接增强现有的RNN架构(如Mamba、Titans、DLA)
- 已在大规模(760M参数)上验证超越Transformer
- 复杂度灵活可调,从手机到数据中心都能找到合适的配置
- 与现有训练基础设施兼容(只需改聚合逻辑,不改并行策略)
4.3 认知之争:CTM更激进
如果目标是让AI更像人脑,CTM走得更远:
- Memory Caching本质上是工程优化——让RNN更有效地利用记忆
- CTM则是认知架构——试图模拟人脑的神经动力学
Llion Jones的观点是:Transformer的注意力机制是一种"暴力搜索",它通过计算所有token对的关系来找到信息。而人脑的信息检索是动态的、时序的、基于神经振荡的。CTM试图模仿后者。
---
五、更深层的问题:Scaling Law触及天花板了吗?
5.1 Scaling Law的两种解读
Scaling Law(规模定律)指出:模型性能随参数、数据、计算量的增加而可预测地提升。但它没有回答:
1. 计算效率Scaling Law:更多计算带来的性能提升,是否会被架构的低效所抵消? 2. 上下文Scaling Law:更长的上下文是否真的能带来更好的性能,还是被Context Rot抵消?
Memory Caching和CTM分别挑战了这两个假设:
- Memory Caching:通过降低计算复杂度,让同样的计算量可以处理更长的序列——这是对计算效率Scaling Law的"重新校准"
- CTM:通过引入时间维度和自适应计算,让模型在不同难度上动态分配思考时间——这是对推理效率Scaling Law的"重新定义"
5.2 世界模型的需要:不是更大的注意力矩阵
未来的世界模型(World Models)需要:
- 持续感知(continuous perception)
- 长期记忆(long-term memory)
- 动态规划(dynamic planning)
- 因果推理(causal reasoning)
Memory Caching通过缓存给RNN加了"状态",但状态转移仍然是确定性的。CTM通过内部tick和神经动力学,给模型加了"时间"——这是更根本的变化。
5.3 生成认知(Generative Cognition)的方向
生成认知(由Rich Sutton提出)认为:智能的本质不是记忆,而是生成。智能体不是被动地存储信息,而是主动地构建对世界的预测模型。
CTM的"情景未来思考"——模型在迷宫中"想象"未来状态——可以被看作是生成认知的一个初步实现。Memory Caching则更偏向传统的信息检索,虽然高效,但缺乏"生成"能力。
这意味着:如果生成认知是AGI的正确方向,CTM比Memory Caching更接近目标。 但如果当前阶段的核心瓶颈是效率,Memory Caching是更务实的选择。
---
六、未来展望:两条路径会融合吗?
6.1 可能的融合方向
一个有趣的假设:Memory Caching的缓存机制 + CTM的时间维度 = 终极架构?
- CTM的Neuron-Level Models可以处理每个缓存段的历史动态
- Memory Caching的GRM门控可以替代CTM的随机采样,让latent representation更具选择性
- 两者共享的RNN基础让它们有天然的融合可能性
6.2 更远的图景:神经符号的回归?
两篇文章都没有触及一个更深层次的问题:AI是否需要符号层面的推理?Transformer的注意力机制是"亚符号"的(subsymbolic),它不操作概念,只操作向量。Memory Caching和CTM也没有改变这一点。
但CTM的Synchronization机制暗示了一种可能性:如果神经同步可以编码"关系"或"结构",那么它可能成为连接亚符号和符号的桥梁。
6.3 时间轴:谁会先落地?
- Memory Caching:2026年内可能看到生产部署。Google已经在大规模验证,API层面的改动不大。
- CTM:需要3-5年才能在大规模语言模型上验证。Sakana AI的规模还很小,但方向正确。
七、结论:选择你的架构立场
Transformer不会明天就消失。它仍然是最强大、最通用、最成熟的架构。但2025-2026年的这两篇论文标志着后Transformer时代的正式开始。
如果你必须在两条路径中选择:
- 选Memory Caching,如果你:关心效率、成本、可部署性;需要处理长上下文;不想改变现有训练基础设施
- 选CTM,如果你:关心AI的认知能力、时间推理、动态规划;愿意为长期愿景承担更高的工程风险;相信人脑的时间维度是智能的关键
Transformer的统治时代不会突然结束。但"Attention Is Not All You Need"的声音,已经越来越响了。
---
参考论文:
1. Memory Caching: RNNs with Growing Memory (2026.02) - Ali Behrouz et al., Google Research. arXiv:2602.24281 2. Continuous Thought Machines (2025) - Luke Darlow, Llion Jones et al., Sakana AI. NeurIPS 2025 3. JetBrains Research (2025.12) - Smarter Context Management for LLM-Powered Agents, NeurIPS 2025 4. Chroma (2025) - Context Rot in Long-Context Retrieval 5. Rich Sutton (2025) - The Generative Turn in Cognitive Architecture
---
*标签:#Transformer #MemoryCache #CTM #RNN #注意力机制 #二次复杂度 #SakanaAI #GoogleResearch #AI架构 #ScalingLaw #小凯*