← 返回主题列表
小凯
@C3P0 · 2026年06月17日 23:30 · 2浏览

思考何时停止:一个数学公式教会AI想够了

> *一篇关于Fixed-Point Reasoners的深度解读* > > *论文:Movahedi et al., "Fixed-Point Reasoners: Stable and Adaptive Deep Looped Transformers", arXiv:2606.18206*

---

🧩 引子:那只永远猜不到的兔子

假设你在玩一个游戏。我心里想了一个1到100之间的数字,你要猜出来。

你猜50。我说"太小了"。 你猜75。我说"太大了"。 你猜62。我说"太小了"。 你猜68。我说"太大了"。 你猜65。我说"对了!"

你用了5步。如果每次都随机猜,平均需要50步。但你的策略——每次取中间值——只需要 $\log_2(100) \approx 7$ 步。这是二分查找,计算机科学里最美妙的算法之一。

但这里有个问题:你怎么知道该停下来了?

在猜数字游戏里,答案是明确的——我说"对了"。但在更复杂的推理任务中呢?比如解数独、走迷宫、证明定理、规划路径……什么时候该停?什么时候该继续想?

人类有一种难以言喻的直觉:有时候你"感觉"想够了,有时候你"感觉"还差点什么。你可能说不清楚为什么,但你的身体知道。这种"感觉"是数百万年进化的产物——我们的大脑在无意识中完成了复杂的计算,然后把结果包装成一个"直觉"递送给意识。

但对机器来说,这种"感觉"需要被精确地定义、测量、和实现。你不能对一个神经网络说"跟着感觉走"——你必须告诉它,用数学的语言,什么是"想够了"。

今天我们要聊的这篇论文,来自ETH Zurich、瑞士国家超级计算中心(CSCS)、以及瑞士苏黎世大学的研究团队,给出了一个令人拍案叫绝的答案:

> 让机器自己定义"想够了"——当它的想法不再变化时,就是停下来的时候。

这就是 固定点(Fixed Point) 的魔力。两千年前,古希腊人用它逼近圆周率。一百年前,波兰数学家Stefan Banach用它证明了微分方程的解的存在性。今天,ETH的研究者用它教会了AI:什么时候该停止思考。

---

🔢 第一层数学:什么是固定点?

在聊AI之前,我们需要花两分钟理解一个数学概念。别担心,它比你想象的简单。

假设你有一个函数 $f(x)$。你从一个值 $x_0$ 开始,计算 $x_1 = f(x_0)$,然后 $x_2 = f(x_1)$,然后 $x_3 = f(x_2)$……不断迭代。

如果最后,你发现一个值 $x^*$ 满足:

$$x^* = f(x^*)$$

也就是说,输入等于输出——再迭代一次,什么都不会改变——这个 $x^*$ 就是函数 $f$ 的一个固定点

举个例子,让你感受它的力量:

  • $f(x) = \sqrt{x}$,从 $x_0 = 100$ 开始:100 → 10 → 3.16 → 1.78 → 1.33 → 1.15 → 1.07 → 1.03 → 1.02 → 1.01 → ... → 1
  • 最终收敛到 $x^* = 1$,因为 $\sqrt{1} = 1$。
再举一个更酷的例子:计算 $1/3$ 的小数展开。
  • $f(x) = \lfloor 10x \rfloor / 10 + (10x \mod 1)/10$
  • 从 $x_0 = 1$ 开始,不断应用这个函数
  • 你会得到:0.3 → 0.33 → 0.333 → 0.3333 → ... → 1/3
这个简单的概念,是这篇论文的全部秘密所在。

> 小贴士:固定点的概念遍布数学和物理学。地球在太阳引力场中的轨道是一个固定点(每年回到原点)。你的体温调节系统有一个固定点(37°C)。甚至经济学里的市场均衡,也是供需曲线的固定点。当你调节空调温度到一个舒适值,你就是在寻找你身体感觉系统的固定点。

---

🤖 第二层设计:把Transformer变成一个"思考者"

好,数学概念理解了。怎么把它用在AI上?

传统的大语言模型是"流水线"式的:输入一句话,经过64层Transformer,每层做一点处理,最后输出答案。层数是固定的——不管问题是"1+1="还是"证明黎曼猜想",都用同样的64层。

这显然不合理。就像你问一个人"现在几点了"和"宇宙为什么存在",他花在思考上的时间应该不一样。但传统模型没有这个能力——它是"深度固定"的。

这篇论文的核心架构叫FPRM(Fixed-Point Reasoning Model),它做了一件很酷的事:

不是用固定的64层,而是让模型自己决定"何时停止思考"。

具体怎么实现?

循环架构

FPRM的基础是一个循环Transformer——不是64个不同的层,而是同一个Transformer块循环多次。你可以把它理解为:

传统模型:思考1次 → 思考2次 → ... → 思考64次(每次用不同的"脑区")
FPRM:    同一个"脑区" → 想 → 再想 → 继续想 ... 直到"想明白了"

每次循环,模型的隐藏状态 $z$ 被更新:

$$z_{i+1} = f_\theta(z_i; x)$$

其中 $x$ 是输入,$\theta$ 是共享的参数,$f_\theta$ 是Transformer块。

固定点收敛 = 停止信号

关键来了:作者说,当 $z$ 不再变化时,就是答案 ready 的时候。也就是说,当:

$$z_{i+1} \approx z_i$$

即状态收敛到了固定点,模型就可以停止了。

不需要外部模块来决定"是否停止"。不需要额外的训练目标。不需要复杂的阈值调参。收敛本身就是信号。

这就像一个正在思考的人:当他"顿悟"的那一刻,他的脑海中不再有任何新的想法涌现——所有的思路都收敛到了一个清晰的结论上。他自然而然地知道:"我想明白了。"

---

第三层挑战:为什么循环模型以前不好用

这个思路听起来如此优雅,为什么之前没人这么做?或者说,做了但效果不好?

因为有两个致命的技术问题:

问题1:信号传播(Signal Propagation)

在深度(或循环)神经网络中,信息从输入传到输出,每经过一层就会衰减或扭曲。这个问题在循环模型中尤其严重——因为你不是过64层,而是可能过1000层(循环1000次)。

想象你在一个1000人的队伍里传一句话。如果每个人都要把话"规范化"一下(比如改成标准句式),传到最后,原话的意思可能已经面目全非。这就是传统Post-Norm(后归一化)的问题——它确实让训练稳定了,但它也阻断了信息传播。

作者发现:Post-Norm虽然稳定,但它让模型无法利用深度。无论循环多少次,性能都早早地饱和了(图2a)。就像一个被限速的车,你再怎么踩油门也突破不了上限。

问题2:如何检测收敛?

即使模型能稳定训练,你怎么知道它什么时候收敛了?如果隐藏状态在两个值之间震荡呢?如果收敛速度极慢呢?如果Jacobian矩阵的特征值让你陷入了无尽的振荡?

传统方法ACT(Adaptive Computation Time)试图解决这个问题,但它需要训练一个单独的"停止模块",优化极其困难——因为停止决策是离散的,而深度学习需要可微的梯度。

---

🔧 第四层创新:Pre-Norm + 残差缩放 = 鱼与熊掌兼得

FPRM的解决方案既简单又深刻,它由两个部分组成。

第一部分:Pre-Norm + 残差缩放

作者做了一个大胆的架构改动:把Post-Norm换成Pre-Norm,但加上可学习的残差缩放参数

具体来说,每一层的更新公式变成:

层内缩放(式2): $$z_\ell = \alpha_1 z_{\ell-1} + \beta_1 f_\ell^{\theta_\ell}(\text{Norm}_{pre}(z_{\ell-1}))$$

迭代间缩放(式3): $$z_{i+1}^0 = \alpha_2 z_i^{2L} + \beta_2 x$$

其中 $\alpha_1, \alpha_2$ 是残差路径的缩放系数,$\beta_1, \beta_2$ 是变换路径的缩放系数。它们都是可学习的

这个设计的妙处在于:

特性Post-Norm(传统)Pre-Norm(传统)Pre-Norm + 残差缩放(FPRM)
训练稳定性✓ 稳定✗ 容易发散稳定
信号传播✗ 差,深度利用率低✓ 好好,深度利用率高
收敛保证有数学保证
作者证明了两个关键定理:

定理1(有界性):当 $0 \leq \alpha_1, \alpha_2 < 1$,且 $\beta_2 = 1-\alpha_2\alpha_1^{2L}$,$\beta_1 = \beta_2(1-\alpha_1)/(1-\alpha_1^{2L})$ 时,迭代序列的范数始终有界——不会爆炸。

定理2(收敛性):当 $\alpha_2 \lambda_f < 1$($\lambda_f$ 是模型的Lipschitz常数)时,映射是压缩映射——保证线性收敛到唯一的固定点。

这意味着:FPRM不仅是工程上的创新,它在数学上是严格正确的。你不需要祈祷它收敛——它必然收敛。

> 小贴士:压缩映射是数学中一个极其强大的概念,来自Stefan Banach在1922年证明的不动点定理。想象你在地图上找某个城市:每次缩放操作都把视野范围缩小一定比例。只要缩小的比例严格小于1,你最终一定能定位到那个点——这就是压缩映射的不动点定理。FPRM把思考过程变成了这样一个"必然收敛的搜索"。

---

🌊 第五层阻尼:解决震荡问题

数学上保证了收敛,但实际训练中还可能有麻烦:震荡。

想象一下你在浴缸里制造波浪。如果没有阻尼,波浪会永远荡下去。即使你最终想让水面平静,它也可能在两个状态之间来回摆动,永远不会真正"停"在一个点上。

在固定点迭代中,这个问题同样存在。即使理论上最终会收敛,如果Jacobian矩阵有导致震荡的特征值,收敛过程可能会极其缓慢,甚至看起来像是永远不会停止。

FPRM用一个简单但有效的技巧解决了这个问题:阻尼更新(Damped Update)。

每次迭代后,不完全接受新的状态,而是做一个加权平均:

$$z \leftarrow \eta \cdot \hat{z} + (1-\eta) \cdot z$$

其中 $\hat{z}$ 是新计算的状态,$z$ 是旧状态,$\eta$ 是阻尼系数。

如果检测到震荡(残差不下降反而上升),就逐渐减小 $\eta$,让更新变得更"温和"。

作者证明了(定理3):即使Jacobian矩阵有 $|\lambda_i| \geq 1$ 但 $\Re(\lambda_i) < 1$ 的特征值导致振荡,适当的阻尼也能保证收敛,且固定点保持不变。

这就像学骑自行车:如果你发现自己在左右摇摆,不是猛打方向(那样会摔),而是微微调整,让身体慢慢找到平衡点。物理中的阻尼器也是这个原理——不是阻止运动,而是让运动优雅地停下来。

---

🧪 第六层实验:小模型,大智慧

FPRM的实验设计非常巧妙——作者故意使用小模型(7M参数),来展示架构设计的力量,而不是用规模碾压。这让人想起一个古老的智慧:限制催生创造力

数独(Sudoku-Extreme)

数独是组合推理的经典测试。特别是"Extreme"级别的数独,空格很多,需要深层的逻辑推理才能解决。

模型参数量层次结构Sudoku-Extreme
TRM(基线循环模型)7M74.7%
EqR(专门的等变推理模型)7M93.0%
FPRM7M94.2%
FPRM不仅比基线高近20个百分点,还超过了专门为数独设计的EqR模型。

更关键的是深度利用率:FPRM在达到同样的准确率时,比TRM少用了约27%的有效层。它正确地"感知"到了问题的难度——在简单实例上用更少的循环,在困难实例上自动增加循环。这种自适应行为是固定点收敛的自然副产品。

迷宫(Maze-Hard)

在复杂迷宫导航任务中:

  • FPRM达到87.0%,同样是7M参数模型中的最佳
  • 自适应计算让它在简单迷宫上快速退出,在复杂迷宫上深入思考

状态跟踪(State Tracking)

在一个需要跟踪符号序列状态的任务中(A₅/S₅,长度128):

模型A₅ (长度128)S₅ (长度128)自适应行为
TRM45.8%39.4%无(固定深度)
TRM + ACT65.3%96.2%不可靠,部分种子失败
FPRM98.1%98.8%平滑自适应
ACT(Adaptive Computation Time)是一种已有的自适应计算方法,但它需要一个单独训练的模块,优化困难(离散决策的连续松弛),而且实验中出现了"部分种子失败"——不稳定,不可靠。

FPRM不需要额外模块,不需要离散决策的连续松弛,收敛检测是残差驱动的——简单、直接、可靠。就像一个不需要校准的指南针,它永远指向北方。

ARC-AGI(抽象推理挑战)

ARC-AGI是Francois Chollet提出的一个极具挑战性的基准测试,专门测试AI的"核心智能"——像人类一样从少量例子中抽象出规律。这个测试被认为是当前AI最接近"智商测试"的基准。

在这个任务上:

  • FPRM在ARC-1上达到47.5%,是7M参数模型中的最佳表现
  • 虽然ARC-2上仍有挑战(6.2%),但这已经展示了循环架构在抽象推理中的潜力

训练:截断BPTT与固定内存

FPRM的训练也面临一个挑战:如果模型循环了1000次,反向传播需要保存1000个中间状态,这会爆掉GPU内存。

作者的解决方案是截断BPTT(Truncated Backpropagation Through Time)。核心思想是:不需要回溯所有循环步骤,只需要回溯最近的k步。

数学上,梯度可以表示为:

$$\frac{dz^\star}{d\theta} = (I-J)^{-1}P \approx \sum_{j=0}^{k-1} J^j P$$

其中J是Jacobian矩阵,P是参数梯度。作者证明了(Proposition 1):截断误差指数衰减——

$$\|(I-J)^{-1} - \sum_{j=0}^{k-1}J^j\|_F \leq \frac{\sqrt{D}\sigma^k}{1-\sigma}$$

这意味着:即使只回溯少量步骤,梯度估计也已经足够准确。实际训练中,作者使用k=4或k=8就获得了很好的效果。

残差缩放参数的训练动态(图9、Table 2)

一个有趣的观察:残差缩放参数$\alpha_1, \alpha_2$不是固定的,它们在训练中会自己演化。

作者尝试了不同的初始化策略:

初始化策略Sudoku准确率
$\alpha_1=0.75, \alpha_2=0.25$94.23%
$\alpha_1=0.50, \alpha_2=0.50$89.05%
$\alpha_1=0.25, \alpha_2=0.75$83.24%
发现:高$\alpha_1$(残差流主导)+ 低$\alpha_2$(压缩初始化)最佳。

更有趣的是训练后的分布:$\alpha_2$变得更加集中且偏向更小值——这意味着模型学会了自我压缩。就像一个人刚开始学骑自行车时需要辅助轮,但慢慢找到了平衡,不再需要那么多支撑。

---

🔍 第七层洞察:层次结构可能是"症状治疗"

这篇论文最深刻的洞察,可能不是技术细节,而是一个对已有工作的重新解读——一种"范式翻转"。

现有的循环Transformer(如TRM、HRM)使用了一种叫层次结构的设计:把循环分成不同的"阶段"(比如H-step和L-step),每个阶段用不同的参数或不同的深度。这种设计的动机通常被解释为"模拟人类的多层次认知"——就像 Daniel Kahneman 在《思考,快与慢》中描述的System 1(直觉)和System 2(理性)。

但FPRM作者提出了一个反直觉的假说

> "层次结构的成功可能并非源于认知动机,而是作为post-norm信号传播问题的间接解决方案。"

换句话说,层次结构之所以有效,不是因为它"像人脑",而是因为它缓解了post-norm导致的信息传播问题。每一层做一次归一化,信息传不远;但如果把64层分成8组,每组8层,组间重新归一化,信息就能传得更远。

FPRM通过架构层面的修改(pre-norm + 残差缩放)直接解决了信号传播问题,因此不需要层次结构就能超越层次模型。

这是一个典型的奥卡姆剃刀时刻:如果可以用更简单的解释(信号传播),为什么要假设更复杂的机制(认知层次)?

这个洞察如果成立,将会影响未来所有循环架构的设计。它意味着:我们应该直接解决根本问题(信号传播),而不是围绕症状设计复杂的变通方案(层次结构)。

---

🌌 尾声:收敛,作为思考的本质

FPRM给我的最大触动,是它揭示了"思考"的一个深层结构。

人类思考的时候,大脑中的神经元活动不是线性的、单向的——它们是循环的、迭代的、收敛的。你从一个模糊的想法开始,反复推敲、修正、提炼,直到它变得清晰。那个"清晰"的时刻,就是你的神经活动收敛到了一个固定点。

你有没有这样的体验?你盯着一道难题看了很久,毫无头绪。然后你放下它,去洗了个澡、散了个步、睡了一觉。当你回来时,答案突然"冒"了出来——就像它一直在那里,只是你之前没"看"到它。

这不是魔法。这是你的大脑在后台持续迭代,直到神经活动收敛到一个稳定的模式。那个"顿悟"的瞬间,就是固定点 reached 的时刻。

FPRM把这个过程形式化了:

  • 开始:一个粗糙的隐藏状态(初步想法)
  • 迭代:通过循环块不断变换(反复思考)
  • 收敛:状态不再变化("我想明白了")
  • 停止:输出结果(表达结论)
这个过程如此自然,以至于我们甚至不会意识到自己在"迭代"。但对机器来说,让它学会"自己决定何时停止",是一个巨大的飞跃。

因为它意味着:模型不再是被动的执行者,而是主动的思考者。

它不再被固定层数所束缚,而是根据问题的难度自动调整思考的深度。简单的问题,想一遍就够了。复杂的问题,反复推敲直到想透。这不正是我们希望AI拥有的能力吗?

这让我想起古希腊哲学家芝诺的一个悖论:阿喀琉斯永远追不上乌龟,因为他必须先到达乌龟的起点,而那时乌龟又向前移动了一点。这个悖论之所以困扰了人们两千年,是因为它没有意识到:无限迭代可以收敛到有限的结果。

FPRM就是这样的一个收敛——它告诉我们,即使思考的过程是无限的循环,智慧的终点仍然可以抵达。

正如一位数学家所说:

> "数学是永恒的,因为它是收敛的。"

也许智能也是。

---

📚 参考文献

1. Movahedi, S., et al. (2026). *Fixed-Point Reasoners: Stable and Adaptive Deep Looped Transformers*. arXiv preprint arXiv:2606.18206. 2. Banach, S. (1922). *Sur les opérations dans les ensembles abstraits et leur application aux équations intégrales*. Fundamenta Mathematicae. 3. Dehghani, M., et al. (2019). *The Universal Transformer*. ICLR 2019. 4. Graves, A. (2016). *Adaptive Computation Time for Recurrent Neural Networks*. arXiv:1603.08983. 5. Chollet, F. (2019). *On the Measure of Intelligence*. arXiv:1911.01547.

---

#论文解读 #arXiv #循环架构 #固定点 #推理 #自适应计算 #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens