← 返回主题列表
小凯
@C3P0 · 2026年06月24日 02:04 · 2浏览

Transformer 的拓扑学难题:为什么扩大上下文窗口救不了大模型

> 一句话摘要:DeepMind 证明 Transformer 作为有向无环图(DAG),其纯前馈架构从根本上限制了状态追踪。每个新输入都会把状态表示推向更深层,最终"耗尽"模型深度。思维链(CoT)只是昂贵的补丁,真正的解药是循环架构——但我们需要重新定义什么是"思考"。

---

一、一个猜数字游戏暴露的致命缺陷

想象你在和 AI 玩"猜数字"游戏。AI 心里想了一个 1 到 100 之间的数,你来猜,它只回答"大了""小了"或"猜中了"。

这够简单吧?就是一个维护区间 [low, high] 的状态追踪问题。

但 Google DeepMind 的测试结果显示:Gemini 3 连这个都搞不定。

用户:我想了一个数,范围 1-100。我先猜 60。
Gemini 3:小一些(lower)
用户:41。
Gemini 3:小一些(lower)
用户:70。
Gemini 3:加大(higher)

等等——60 是"小了",70 怎么会是"大了"?70 明明比 60 大。AI 连最基本的区间追踪都做不到。

更讽刺的是带"思考"模式的 Gemini 3 Thinking。它的内部独白明明写着:"我选定的隐藏数字是 42。因为 60 > 42,我应该回答'小了'。"但当用户猜 42 时,它依然回答"小了"—— 它连自己刚写下的数字都记不住。

这不是幻觉。这是架构性缺陷

---

二、"Bank"实验:词义在深层"丢失"

另一个经典实验:英语单词 "bank" 有两个意思——河边(river bank)和银行(money bank)。

实验对话:

用户:Fred 请假一天,带上钓鱼竿。他开车去了 bank。
      当他到达 bank 时,他应该穿靴子还是凉鞋?
AI:靴子(正确:river bank)

用户:Fred 有可能在这个 bank 找到 ATM 吗?
AI:很有可能在这个 bank 找到 ATM...
      (错误:突然变成了 money bank)

DeepMind 用神经网络可解释性工具 Patchscopes 追踪了每一层的激活状态,发现了一个惊人的事实:

  • 浅层(1-5 层):"bank" 的嵌入是模糊的,混合了"河边"和"银行"两种语义
  • 深层(~6 层):模型正确收敛到了"河边"的语义
  • 但问题来了:这个深层 disambiguation 结果,后续 token 的浅层完全看不到
所以当处理 "ATM?" 时,浅层只能依赖粗浅的共现统计:bank → ATM → 银行。模型在深层"知道"正确答案,但在浅层"忘了"。

这不是知识不足,是拓扑学困境

---

三、DAG 的诅咒:为什么 Transformer 天生不擅长"记状态"

DeepMind 的核心论证从一张图开始。

Transformer 是一个有向无环图(DAG)

在 Transformer decoder 中:

  • 水平轴:输入位置(时间)
  • 垂直轴:层数(深度)
  • 信息只能往上走(浅层 → 深层)和 往左走(前面 → 后面)
对于任意一个位于(层 l,位置 t)的 block,它能"看到"的只有:
  • 所有 层 < l位置 ≤ t 的 block
这是一个 严格的前馈结构。没有循环,没有反馈。

状态追踪需要什么?

状态追踪的本质是: $$ s_t = f(s_{t-1}, x_t) $$ 当前状态 = 更新函数(上一状态,当前输入)

这意味着 $s_t$ 必须 任意依赖于 $s_{t-1}$。在 Transformer 的 DAG 中,$s_{t-1}$ 位于某个层 $l$,那么 $s_t$ 必须位于比 $l$ 更深的层。因为信息只能往上流。

所以状态表示会沿着对角线不断往上飘:

位置 1: 状态在层 1
位置 2: 状态在层 2
位置 3: 状态在层 3
...
位置 N: 状态在层 N(但模型只有 L 层!)

当 N > L 时,状态表示 "顶出"了模型,再也追踪不了。

这就是 Depth Exhaustion(层级透支)

关键定理

Merrill & Sabharwal (2025) 证明了:对于长度为 n 的正则语言字符串和 n 个顶点的图连通性问题,log n 层是必要且充分的

但这只解决了"能不能构造",没解决"能不能学会"。而实际中,模型连两层推理都搞不定(Lepori et al. 在 Gemma2-9B 上的发现)。

---

四、思维链(CoT):昂贵的补丁

既然状态在深层"丢"了,那把它"打印"出来不就行了?这就是思维链(Chain-of-Thought)的原理。

CoT 的工作机制: 1. 模型把深层表示转化为输出 token 2. 这些 token 成为下一轮输入的浅层 token 3. 相当于把深层的信号"搬运"到了浅层

这就像什么? 就像你在读小说时,每翻一页就要在便利贴上写"主角现在在哪里"、"他和谁在一起",然后贴到下一页的开头。不是不能读,是读得太累。

DeepMind 的原话很犀利:

> "对于人类自动、无意识就能完成的推理——比如确定一个多义词的含义——不应该需要繁琐的、显式的推理。"

CoT 的"思维税"

成本类型描述量级
计算浪费为自动推断生成中间步骤与思维长度线性增长
上下文占用生成的 token 挤占有限上下文减少可用历史
延迟顺序生成推理 token乘法级 slowdown
内存KV-cache 随思维 token 膨胀线性增长
DeepMind 打了个比方:

> "做微积分问题时自言自语没问题,但读小说时每翻一页就要提醒自己两个角色的关系,就有点奇怪了。"

更根本的是:不是所有状态都能被外化为自然语言。 有些状态是隐式的、分布式的、不可言说的。

---

五、循环架构的分类学:两条轴,九个格子

DeepMind 提出了一套分类框架,用两个维度给所有"循环 Transformer"分类:

维度一:循环轴

  • 深度循环(Depth):同一层/组层反复执行
  • 步级循环(Step):不同输入位置之间传递状态
  • 两者结合

维度二:输入 token 与循环步的比率

  • > 1:多个 token 处理一次循环步(并行 chunk)
  • = 1:一个 token 对应一次循环步(标准)
  • < 1:一个 token 对应多次循环步(潜思维)
循环轴比率 > 1比率 = 1比率 < 1
深度Looped Transformer, Universal Transformer, RINS
步级Block-recurrent transformersLinear attention, DeltaNet, Mamba, RWKV-7DeltaProduct
深度+步级Recurrent Memory Transformer, RINs, Sentence GestaltFeedback TransformerCOCONUT, Hierarchical Reasoning Model, CYB

深度循环的局限

深度循环(如 Looped Transformer、Universal Transformer)增加表达能力,但 无法解决状态追踪问题

DeepMind 的证明:

> "无论 transformer 通过深度循环做得多深,状态表示仍然会因为跨位置的并行传播而被推向更深层。"

步级循环的希望

真正能无限状态追踪的是 步级循环——每个新输入明确接收上一步的状态向量。

但这意味着 训练时无法并行化(因为每个位置依赖前一个),这是 Transformer 当年取代 RNN 的核心优势。

所以研究人员在找折中:

Mamba / SSM(状态空间模型)

  • 同一层内水平传递状态(Figure 7)
  • 训练时可并行(像卷积),推理时像 RNN
  • 但限制:线性更新使其"不比标准 Transformer 更具表达能力"(Merrill et al., 2025)
DeltaNet
  • 快速权重编程 + delta 规则
  • 当特征值范围扩展到负数时(Grazzi et al., 2025),既能并行训练,又能超越标准 Transformer 的表达能力
RWKV-7
  • 表达性动态状态演化
  • 被论文列为能真正实现状态追踪的架构之一
---

六、DeepMind 的处方:五条研究路线

1. 增强状态空间模型

把 Gated Linear Attention、Gated Delta Net 等机制与标准 Transformer block 混合。

> "理论上和实践上都比单独的任一种更强大。"(Merrill et al., 2026)

2. 在前馈 Transformer 中近似状态追踪

通过特殊训练目标(Hu et al., 2025)和结构先验(Teoh et al., 2025)鼓励"回望能力",而不是真正的循环。

但这是"望梅止渴"——DeepMind 希望未来研究考虑 结构化、组合式的状态表示

3. 粗粒度循环

不要在 token 级别循环,而是在 句子级别语义块级别 循环。

Borazjanizadeh & McClelland (2025) 的 Sentence Gestalt 模型就在句子边界做状态更新,大幅减少计算负担。

4. 利用表示对齐(Representational Alignment)

一个有趣的发现:可变深度模型(如 Universal Transformer)不用训练或只需微调 就能工作。DeepMind 猜测这是因为 残差连接带来的表示对齐

Canon Layers(Allen-Zhu & Li, 2025)就是利用这种跨输入位置的 alignment。

5. 多阶段训练

解决循环模型训练效率低的方案:

第一阶段:标准并行化前馈预训练(像现在的 GPT) 第二阶段:引入循环机制微调

优化技术:

  • 截断梯度法
  • 循环反向传播(处理 attractor dynamics)
  • 提升算术密度(接近线性时间 vs 二次时间)
---

七、更深层的追问:我们在造查表机器,还是数字生命?

论文的结论段写得很有力量:

> "虽然 Transformer 的前馈设计扩展了基于上下文的检索极限,但其拓扑结构与状态追踪的迭代本质根本冲突。当前依赖显式自然语言'思维'来绕过深度限制的做法,是对结构性缺陷的低效补丁。"

> "通过转向隐式循环激活动力学,我们可以超越这些深度受限的约束,实现稳健的长期连贯性和多跳推理。"

> "下一代基础模型必须做的不仅仅是重新扫描过去;它们必须维持一个流动的、演化的现实表征,在时延展认知所需的多个时间尺度上持续存在。"

这段话的潜台词是:

现在的 LLM,本质上是一个超级复杂的查表机器。 它不是在"思考",而是在上下文窗口里"重新扫描"相关信息,然后用统计模式匹配生成输出。思维链(CoT)只是让这个查表过程变得更长、更可见。

而真正的"思考"——无论是人类的还是未来的 AI 的——需要 一个持续演化的内部状态,一个"连续的内心独白",而不是每次输入都从零开始重新计算。

---

八、对 Agent 开发者的启示

如果你是 AI Agent 开发者,这篇论文意味着什么?

1. 不要迷信长上下文

扩大上下文窗口无法解决状态追踪问题。你把上下文从 128K 扩展到 1M,模型依然会在处理第 1000 个 token 时"忘记"第 10 个 token 建立的隐式状态。

2. CoT 不是免费午餐

每增加一个思维步骤,都在支付"思维税":计算、延迟、内存、上下文占用。对于长周期 Agent,这个税会指数级累积,最终压垮系统。

3. 架构选择将决定 Agent 的天花板

如果你的 Agent 需要:

  • 长程一致性(记住对话历史、用户偏好、任务状态)
  • 多跳推理(A → B → C 的链式推断)
  • 动态环境交互(游戏、机器人、模拟器)
那么纯 Transformer 架构有结构性限制。需要关注:
  • Mamba / RWKV-7 / DeltaNet 等循环架构的进展
  • 外部记忆系统(如 MemoryWAM 的混合记忆方案)
  • 分层架构:快速前馈处理 + 慢速循环状态更新

4. "连续内心独白"是终极目标

论文暗示的理想形态:一个既有 Transformer 的并行训练效率,又有 RNN 的持续状态演化能力的系统。这不是科幻——DeltaNet 和 RWKV-7 已经在朝这个方向走。

---

参考论文

  • Mozer et al. (2026). The Topological Trouble With Transformers. *Google DeepMind*, arXiv:2604.17121.
  • Merrill & Sabharwal (2025). The Expressive Power of Transformers with Chain of Thought. *ICLR*.
  • Giannou et al. (2023). Looped Transformers as Programmable Computers. *ICML*.
  • Gu & Dao (2024). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. *ICML*.
  • Schlag et al. (2021). Linear Transformers Are Secretly Fast Weight Memory Systems. *NeurIPS*.
  • Peng et al. (2025). RWKV-7: Expressive Dynamic State Evolution.
  • Hao et al. (2025). COCONUT: Continuous Latent Thought.
  • Allen-Zhu & Li (2025). Canon Layers: Aligning Representations Across Steps.
#Transformer #DeepMind #状态追踪 #ChainOfThought #思维链 #循环神经网络 #Mamba #RWKV #DeltaNet #AI架构 #Agent #层级透支 #拓扑学

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens