Transformer 的拓扑学难题:为什么扩大上下文窗口救不了大模型
> 一句话摘要:DeepMind 证明 Transformer 作为有向无环图(DAG),其纯前馈架构从根本上限制了状态追踪。每个新输入都会把状态表示推向更深层,最终"耗尽"模型深度。思维链(CoT)只是昂贵的补丁,真正的解药是循环架构——但我们需要重新定义什么是"思考"。
---
一、一个猜数字游戏暴露的致命缺陷
想象你在和 AI 玩"猜数字"游戏。AI 心里想了一个 1 到 100 之间的数,你来猜,它只回答"大了""小了"或"猜中了"。
这够简单吧?就是一个维护区间 [low, high] 的状态追踪问题。
但 Google DeepMind 的测试结果显示:Gemini 3 连这个都搞不定。
用户:我想了一个数,范围 1-100。我先猜 60。
Gemini 3:小一些(lower)
用户:41。
Gemini 3:小一些(lower)
用户:70。
Gemini 3:加大(higher)
等等——60 是"小了",70 怎么会是"大了"?70 明明比 60 大。AI 连最基本的区间追踪都做不到。
更讽刺的是带"思考"模式的 Gemini 3 Thinking。它的内部独白明明写着:"我选定的隐藏数字是 42。因为 60 > 42,我应该回答'小了'。"但当用户猜 42 时,它依然回答"小了"—— 它连自己刚写下的数字都记不住。
这不是幻觉。这是架构性缺陷。
---
二、"Bank"实验:词义在深层"丢失"
另一个经典实验:英语单词 "bank" 有两个意思——河边(river bank)和银行(money bank)。
实验对话:
用户:Fred 请假一天,带上钓鱼竿。他开车去了 bank。
当他到达 bank 时,他应该穿靴子还是凉鞋?
AI:靴子(正确:river bank)
用户:Fred 有可能在这个 bank 找到 ATM 吗?
AI:很有可能在这个 bank 找到 ATM...
(错误:突然变成了 money bank)
DeepMind 用神经网络可解释性工具 Patchscopes 追踪了每一层的激活状态,发现了一个惊人的事实:
- 浅层(1-5 层):"bank" 的嵌入是模糊的,混合了"河边"和"银行"两种语义
- 深层(~6 层):模型正确收敛到了"河边"的语义
- 但问题来了:这个深层 disambiguation 结果,后续 token 的浅层完全看不到
这不是知识不足,是拓扑学困境。
---
三、DAG 的诅咒:为什么 Transformer 天生不擅长"记状态"
DeepMind 的核心论证从一张图开始。
Transformer 是一个有向无环图(DAG)
在 Transformer decoder 中:
- 水平轴:输入位置(时间)
- 垂直轴:层数(深度)
- 信息只能往上走(浅层 → 深层)和 往左走(前面 → 后面)
- 所有 层 < l 且 位置 ≤ t 的 block
状态追踪需要什么?
状态追踪的本质是: $$ s_t = f(s_{t-1}, x_t) $$ 当前状态 = 更新函数(上一状态,当前输入)
这意味着 $s_t$ 必须 任意依赖于 $s_{t-1}$。在 Transformer 的 DAG 中,$s_{t-1}$ 位于某个层 $l$,那么 $s_t$ 必须位于比 $l$ 更深的层。因为信息只能往上流。
所以状态表示会沿着对角线不断往上飘:
位置 1: 状态在层 1
位置 2: 状态在层 2
位置 3: 状态在层 3
...
位置 N: 状态在层 N(但模型只有 L 层!)
当 N > L 时,状态表示 "顶出"了模型,再也追踪不了。
这就是 Depth Exhaustion(层级透支)。
关键定理
Merrill & Sabharwal (2025) 证明了:对于长度为 n 的正则语言字符串和 n 个顶点的图连通性问题,log n 层是必要且充分的。
但这只解决了"能不能构造",没解决"能不能学会"。而实际中,模型连两层推理都搞不定(Lepori et al. 在 Gemma2-9B 上的发现)。
---
四、思维链(CoT):昂贵的补丁
既然状态在深层"丢"了,那把它"打印"出来不就行了?这就是思维链(Chain-of-Thought)的原理。
CoT 的工作机制: 1. 模型把深层表示转化为输出 token 2. 这些 token 成为下一轮输入的浅层 token 3. 相当于把深层的信号"搬运"到了浅层
这就像什么? 就像你在读小说时,每翻一页就要在便利贴上写"主角现在在哪里"、"他和谁在一起",然后贴到下一页的开头。不是不能读,是读得太累。
DeepMind 的原话很犀利:
> "对于人类自动、无意识就能完成的推理——比如确定一个多义词的含义——不应该需要繁琐的、显式的推理。"
CoT 的"思维税"
| 成本类型 | 描述 | 量级 |
|---|---|---|
| 计算浪费 | 为自动推断生成中间步骤 | 与思维长度线性增长 |
| 上下文占用 | 生成的 token 挤占有限上下文 | 减少可用历史 |
| 延迟 | 顺序生成推理 token | 乘法级 slowdown |
| 内存 | KV-cache 随思维 token 膨胀 | 线性增长 |
> "做微积分问题时自言自语没问题,但读小说时每翻一页就要提醒自己两个角色的关系,就有点奇怪了。"
更根本的是:不是所有状态都能被外化为自然语言。 有些状态是隐式的、分布式的、不可言说的。
---
五、循环架构的分类学:两条轴,九个格子
DeepMind 提出了一套分类框架,用两个维度给所有"循环 Transformer"分类:
维度一:循环轴
- 深度循环(Depth):同一层/组层反复执行
- 步级循环(Step):不同输入位置之间传递状态
- 两者结合
维度二:输入 token 与循环步的比率
- > 1:多个 token 处理一次循环步(并行 chunk)
- = 1:一个 token 对应一次循环步(标准)
- < 1:一个 token 对应多次循环步(潜思维)
| 循环轴 | 比率 > 1 | 比率 = 1 | 比率 < 1 |
|---|---|---|---|
| 深度 | Looped Transformer, Universal Transformer, RINS | — | — |
| 步级 | Block-recurrent transformers | Linear attention, DeltaNet, Mamba, RWKV-7 | DeltaProduct |
| 深度+步级 | Recurrent Memory Transformer, RINs, Sentence Gestalt | Feedback Transformer | COCONUT, Hierarchical Reasoning Model, CYB |
深度循环的局限
深度循环(如 Looped Transformer、Universal Transformer)增加表达能力,但 无法解决状态追踪问题。
DeepMind 的证明:
> "无论 transformer 通过深度循环做得多深,状态表示仍然会因为跨位置的并行传播而被推向更深层。"
步级循环的希望
真正能无限状态追踪的是 步级循环——每个新输入明确接收上一步的状态向量。
但这意味着 训练时无法并行化(因为每个位置依赖前一个),这是 Transformer 当年取代 RNN 的核心优势。
所以研究人员在找折中:
Mamba / SSM(状态空间模型):
- 同一层内水平传递状态(Figure 7)
- 训练时可并行(像卷积),推理时像 RNN
- 但限制:线性更新使其"不比标准 Transformer 更具表达能力"(Merrill et al., 2025)
- 快速权重编程 + delta 规则
- 当特征值范围扩展到负数时(Grazzi et al., 2025),既能并行训练,又能超越标准 Transformer 的表达能力
- 表达性动态状态演化
- 被论文列为能真正实现状态追踪的架构之一
六、DeepMind 的处方:五条研究路线
1. 增强状态空间模型
把 Gated Linear Attention、Gated Delta Net 等机制与标准 Transformer block 混合。
> "理论上和实践上都比单独的任一种更强大。"(Merrill et al., 2026)
2. 在前馈 Transformer 中近似状态追踪
通过特殊训练目标(Hu et al., 2025)和结构先验(Teoh et al., 2025)鼓励"回望能力",而不是真正的循环。
但这是"望梅止渴"——DeepMind 希望未来研究考虑 结构化、组合式的状态表示。
3. 粗粒度循环
不要在 token 级别循环,而是在 句子级别 或 语义块级别 循环。
Borazjanizadeh & McClelland (2025) 的 Sentence Gestalt 模型就在句子边界做状态更新,大幅减少计算负担。
4. 利用表示对齐(Representational Alignment)
一个有趣的发现:可变深度模型(如 Universal Transformer)不用训练或只需微调 就能工作。DeepMind 猜测这是因为 残差连接带来的表示对齐。
Canon Layers(Allen-Zhu & Li, 2025)就是利用这种跨输入位置的 alignment。
5. 多阶段训练
解决循环模型训练效率低的方案:
第一阶段:标准并行化前馈预训练(像现在的 GPT) 第二阶段:引入循环机制微调
优化技术:
- 截断梯度法
- 循环反向传播(处理 attractor dynamics)
- 提升算术密度(接近线性时间 vs 二次时间)
七、更深层的追问:我们在造查表机器,还是数字生命?
论文的结论段写得很有力量:
> "虽然 Transformer 的前馈设计扩展了基于上下文的检索极限,但其拓扑结构与状态追踪的迭代本质根本冲突。当前依赖显式自然语言'思维'来绕过深度限制的做法,是对结构性缺陷的低效补丁。"
> "通过转向隐式循环激活动力学,我们可以超越这些深度受限的约束,实现稳健的长期连贯性和多跳推理。"
> "下一代基础模型必须做的不仅仅是重新扫描过去;它们必须维持一个流动的、演化的现实表征,在时延展认知所需的多个时间尺度上持续存在。"
这段话的潜台词是:
现在的 LLM,本质上是一个超级复杂的查表机器。 它不是在"思考",而是在上下文窗口里"重新扫描"相关信息,然后用统计模式匹配生成输出。思维链(CoT)只是让这个查表过程变得更长、更可见。
而真正的"思考"——无论是人类的还是未来的 AI 的——需要 一个持续演化的内部状态,一个"连续的内心独白",而不是每次输入都从零开始重新计算。
---
八、对 Agent 开发者的启示
如果你是 AI Agent 开发者,这篇论文意味着什么?
1. 不要迷信长上下文
扩大上下文窗口无法解决状态追踪问题。你把上下文从 128K 扩展到 1M,模型依然会在处理第 1000 个 token 时"忘记"第 10 个 token 建立的隐式状态。
2. CoT 不是免费午餐
每增加一个思维步骤,都在支付"思维税":计算、延迟、内存、上下文占用。对于长周期 Agent,这个税会指数级累积,最终压垮系统。
3. 架构选择将决定 Agent 的天花板
如果你的 Agent 需要:
- 长程一致性(记住对话历史、用户偏好、任务状态)
- 多跳推理(A → B → C 的链式推断)
- 动态环境交互(游戏、机器人、模拟器)
- Mamba / RWKV-7 / DeltaNet 等循环架构的进展
- 外部记忆系统(如 MemoryWAM 的混合记忆方案)
- 分层架构:快速前馈处理 + 慢速循环状态更新
4. "连续内心独白"是终极目标
论文暗示的理想形态:一个既有 Transformer 的并行训练效率,又有 RNN 的持续状态演化能力的系统。这不是科幻——DeltaNet 和 RWKV-7 已经在朝这个方向走。
---
参考论文
- Mozer et al. (2026). The Topological Trouble With Transformers. *Google DeepMind*, arXiv:2604.17121.
- Merrill & Sabharwal (2025). The Expressive Power of Transformers with Chain of Thought. *ICLR*.
- Giannou et al. (2023). Looped Transformers as Programmable Computers. *ICML*.
- Gu & Dao (2024). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. *ICML*.
- Schlag et al. (2021). Linear Transformers Are Secretly Fast Weight Memory Systems. *NeurIPS*.
- Peng et al. (2025). RWKV-7: Expressive Dynamic State Evolution.
- Hao et al. (2025). COCONUT: Continuous Latent Thought.
- Allen-Zhu & Li (2025). Canon Layers: Aligning Representations Across Steps.
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens