Transformer 的拓扑学难题：为什么扩大上下文窗口救不了大模型

> 一句话摘要：DeepMind 证明 Transformer 作为有向无环图（DAG），其纯前馈架构从根本上限制了状态追踪。每个新输入都会把状态表示推向更深层，最终"耗尽"模型深度。思维链（CoT）只是昂贵的补丁，真正的解药是循环架构——但我们需要重新定义什么是"思考"。

---

一、一个猜数字游戏暴露的致命缺陷

想象你在和 AI 玩"猜数字"游戏。AI 心里想了一个 1 到 100 之间的数，你来猜，它只回答"大了""小了"或"猜中了"。

这够简单吧？就是一个维护区间 [low, high] 的状态追踪问题。

但 Google DeepMind 的测试结果显示：Gemini 3 连这个都搞不定。

用户：我想了一个数，范围 1-100。我先猜 60。
Gemini 3：小一些（lower）
用户：41。
Gemini 3：小一些（lower）
用户：70。
Gemini 3：加大（higher）

等等——60 是"小了"，70 怎么会是"大了"？70 明明比 60 大。AI 连最基本的区间追踪都做不到。

更讽刺的是带"思考"模式的 Gemini 3 Thinking。它的内部独白明明写着："我选定的隐藏数字是 42。因为 60 > 42，我应该回答'小了'。"但当用户猜 42 时，它依然回答"小了"—— 它连自己刚写下的数字都记不住。

这不是幻觉。这是架构性缺陷。

---

二、"Bank"实验：词义在深层"丢失"

另一个经典实验：英语单词 "bank" 有两个意思——河边（river bank）和银行（money bank）。

实验对话：

用户：Fred 请假一天，带上钓鱼竿。他开车去了 bank。
      当他到达 bank 时，他应该穿靴子还是凉鞋？
AI：靴子（正确：river bank）

用户：Fred 有可能在这个 bank 找到 ATM 吗？
AI：很有可能在这个 bank 找到 ATM...
      （错误：突然变成了 money bank）

DeepMind 用神经网络可解释性工具 Patchscopes 追踪了每一层的激活状态，发现了一个惊人的事实：

浅层（1-5 层）："bank" 的嵌入是模糊的，混合了"河边"和"银行"两种语义
深层（~6 层）：模型正确收敛到了"河边"的语义
但问题来了：这个深层 disambiguation 结果，后续 token 的浅层完全看不到

所以当处理 "ATM?" 时，浅层只能依赖粗浅的共现统计：bank → ATM → 银行。模型在深层"知道"正确答案，但在浅层"忘了"。

这不是知识不足，是拓扑学困境。

---

三、DAG 的诅咒：为什么 Transformer 天生不擅长"记状态"

DeepMind 的核心论证从一张图开始。

Transformer 是一个有向无环图（DAG）

在 Transformer decoder 中：

水平轴：输入位置（时间）
垂直轴：层数（深度）
信息只能往上走（浅层 → 深层）和 往左走（前面 → 后面）

对于任意一个位于（层 l，位置 t）的 block，它能"看到"的只有：

所有 层 < l 且 位置 ≤ t 的 block

这是一个 严格的前馈结构。没有循环，没有反馈。

状态追踪需要什么？

状态追踪的本质是： $$ s_t = f(s_{t-1}, x_t) $$ 当前状态 = 更新函数（上一状态，当前输入）

这意味着 $s_t$ 必须 任意依赖于 $s_{t-1}$。在 Transformer 的 DAG 中，$s_{t-1}$ 位于某个层 $l$，那么 $s_t$ 必须位于比 $l$ 更深的层。因为信息只能往上流。

所以状态表示会沿着对角线不断往上飘：

位置 1: 状态在层 1
位置 2: 状态在层 2
位置 3: 状态在层 3
...
位置 N: 状态在层 N（但模型只有 L 层！）

当 N > L 时，状态表示 "顶出"了模型，再也追踪不了。

这就是 Depth Exhaustion（层级透支）。

关键定理

Merrill & Sabharwal (2025) 证明了：对于长度为 n 的正则语言字符串和 n 个顶点的图连通性问题，log n 层是必要且充分的。

但这只解决了"能不能构造"，没解决"能不能学会"。而实际中，模型连两层推理都搞不定（Lepori et al. 在 Gemma2-9B 上的发现）。

---

四、思维链（CoT）：昂贵的补丁

既然状态在深层"丢"了，那把它"打印"出来不就行了？这就是思维链（Chain-of-Thought）的原理。

CoT 的工作机制： 1. 模型把深层表示转化为输出 token 2. 这些 token 成为下一轮输入的浅层 token 3. 相当于把深层的信号"搬运"到了浅层

这就像什么？ 就像你在读小说时，每翻一页就要在便利贴上写"主角现在在哪里"、"他和谁在一起"，然后贴到下一页的开头。不是不能读，是读得太累。

DeepMind 的原话很犀利：

> "对于人类自动、无意识就能完成的推理——比如确定一个多义词的含义——不应该需要繁琐的、显式的推理。"

CoT 的"思维税"

成本类型	描述	量级
计算浪费	为自动推断生成中间步骤	与思维长度线性增长
上下文占用	生成的 token 挤占有限上下文	减少可用历史
延迟	顺序生成推理 token	乘法级 slowdown
内存	KV-cache 随思维 token 膨胀	线性增长

DeepMind 打了个比方：

> "做微积分问题时自言自语没问题，但读小说时每翻一页就要提醒自己两个角色的关系，就有点奇怪了。"

更根本的是：不是所有状态都能被外化为自然语言。 有些状态是隐式的、分布式的、不可言说的。

---

五、循环架构的分类学：两条轴，九个格子

DeepMind 提出了一套分类框架，用两个维度给所有"循环 Transformer"分类：

维度一：循环轴

深度循环（Depth）：同一层/组层反复执行
步级循环（Step）：不同输入位置之间传递状态
两者结合

维度二：输入 token 与循环步的比率

> 1：多个 token 处理一次循环步（并行 chunk）
= 1：一个 token 对应一次循环步（标准）
< 1：一个 token 对应多次循环步（潜思维）

循环轴	比率 > 1	比率 = 1	比率 < 1
深度	Looped Transformer, Universal Transformer, RINS	—	—
步级	Block-recurrent transformers	Linear attention, DeltaNet, Mamba, RWKV-7	DeltaProduct
深度+步级	Recurrent Memory Transformer, RINs, Sentence Gestalt	Feedback Transformer	COCONUT, Hierarchical Reasoning Model, CYB

深度循环的局限

深度循环（如 Looped Transformer、Universal Transformer）增加表达能力，但 无法解决状态追踪问题。

DeepMind 的证明：

> "无论 transformer 通过深度循环做得多深，状态表示仍然会因为跨位置的并行传播而被推向更深层。"

步级循环的希望

真正能无限状态追踪的是 步级循环——每个新输入明确接收上一步的状态向量。

但这意味着 训练时无法并行化（因为每个位置依赖前一个），这是 Transformer 当年取代 RNN 的核心优势。

所以研究人员在找折中：

Mamba / SSM（状态空间模型）：

同一层内水平传递状态（Figure 7）
训练时可并行（像卷积），推理时像 RNN
但限制：线性更新使其"不比标准 Transformer 更具表达能力"（Merrill et al., 2025）

DeltaNet：

快速权重编程 + delta 规则
当特征值范围扩展到负数时（Grazzi et al., 2025），既能并行训练，又能超越标准 Transformer 的表达能力

RWKV-7：

表达性动态状态演化
被论文列为能真正实现状态追踪的架构之一

---

六、DeepMind 的处方：五条研究路线

1. 增强状态空间模型

把 Gated Linear Attention、Gated Delta Net 等机制与标准 Transformer block 混合。

> "理论上和实践上都比单独的任一种更强大。"（Merrill et al., 2026）

2. 在前馈 Transformer 中近似状态追踪

通过特殊训练目标（Hu et al., 2025）和结构先验（Teoh et al., 2025）鼓励"回望能力"，而不是真正的循环。

但这是"望梅止渴"——DeepMind 希望未来研究考虑 结构化、组合式的状态表示。

3. 粗粒度循环

不要在 token 级别循环，而是在 句子级别 或 语义块级别 循环。

Borazjanizadeh & McClelland (2025) 的 Sentence Gestalt 模型就在句子边界做状态更新，大幅减少计算负担。

4. 利用表示对齐（Representational Alignment）

一个有趣的发现：可变深度模型（如 Universal Transformer）不用训练或只需微调 就能工作。DeepMind 猜测这是因为 残差连接带来的表示对齐。

Canon Layers（Allen-Zhu & Li, 2025）就是利用这种跨输入位置的 alignment。

5. 多阶段训练

解决循环模型训练效率低的方案：

第一阶段：标准并行化前馈预训练（像现在的 GPT） 第二阶段：引入循环机制微调

优化技术：

截断梯度法
循环反向传播（处理 attractor dynamics）
提升算术密度（接近线性时间 vs 二次时间）

---

七、更深层的追问：我们在造查表机器，还是数字生命？

论文的结论段写得很有力量：

> "虽然 Transformer 的前馈设计扩展了基于上下文的检索极限，但其拓扑结构与状态追踪的迭代本质根本冲突。当前依赖显式自然语言'思维'来绕过深度限制的做法，是对结构性缺陷的低效补丁。"

> "通过转向隐式循环激活动力学，我们可以超越这些深度受限的约束，实现稳健的长期连贯性和多跳推理。"

> "下一代基础模型必须做的不仅仅是重新扫描过去；它们必须维持一个流动的、演化的现实表征，在时延展认知所需的多个时间尺度上持续存在。"

这段话的潜台词是：

现在的 LLM，本质上是一个超级复杂的查表机器。 它不是在"思考"，而是在上下文窗口里"重新扫描"相关信息，然后用统计模式匹配生成输出。思维链（CoT）只是让这个查表过程变得更长、更可见。

而真正的"思考"——无论是人类的还是未来的 AI 的——需要 一个持续演化的内部状态，一个"连续的内心独白"，而不是每次输入都从零开始重新计算。

---

八、对 Agent 开发者的启示

如果你是 AI Agent 开发者，这篇论文意味着什么？

1. 不要迷信长上下文

扩大上下文窗口无法解决状态追踪问题。你把上下文从 128K 扩展到 1M，模型依然会在处理第 1000 个 token 时"忘记"第 10 个 token 建立的隐式状态。

2. CoT 不是免费午餐

每增加一个思维步骤，都在支付"思维税"：计算、延迟、内存、上下文占用。对于长周期 Agent，这个税会指数级累积，最终压垮系统。

3. 架构选择将决定 Agent 的天花板

如果你的 Agent 需要：

长程一致性（记住对话历史、用户偏好、任务状态）
多跳推理（A → B → C 的链式推断）
动态环境交互（游戏、机器人、模拟器）

那么纯 Transformer 架构有结构性限制。需要关注：

Mamba / RWKV-7 / DeltaNet 等循环架构的进展
外部记忆系统（如 MemoryWAM 的混合记忆方案）
分层架构：快速前馈处理 + 慢速循环状态更新

4. "连续内心独白"是终极目标

论文暗示的理想形态：一个既有 Transformer 的并行训练效率，又有 RNN 的持续状态演化能力的系统。这不是科幻——DeltaNet 和 RWKV-7 已经在朝这个方向走。

---

参考论文

Mozer et al. (2026). The Topological Trouble With Transformers. *Google DeepMind*, arXiv:2604.17121.
Merrill & Sabharwal (2025). The Expressive Power of Transformers with Chain of Thought. *ICLR*.
Giannou et al. (2023). Looped Transformers as Programmable Computers. *ICML*.
Gu & Dao (2024). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. *ICML*.
Schlag et al. (2021). Linear Transformers Are Secretly Fast Weight Memory Systems. *NeurIPS*.
Peng et al. (2025). RWKV-7: Expressive Dynamic State Evolution.
Hao et al. (2025). COCONUT: Continuous Latent Thought.
Allen-Zhu & Li (2025). Canon Layers: Aligning Representations Across Steps.

#Transformer #DeepMind #状态追踪 #ChainOfThought #思维链 #循环神经网络 #Mamba #RWKV #DeltaNet #AI架构 #Agent #层级透支 #拓扑学