当神经网络学会了「想不通就再想一遍」：吸引子如何让 AI 越想越聪明

你有没有过这种体验？

考试时遇到一道难题，第一遍算出来的答案总觉得不对劲。你没有放弃，而是从头再来——换个思路、换个起点，再算一遍。第二遍、第三遍……慢慢地，答案越来越确定，直到某个瞬间，你心里"咔嗒"一声：对了，就是它。

这个"咔嗒"声，在数学里有个名字——收敛到吸引子。

CMU Locus Lab（Zico Kolter 组）的最新论文 Equilibrium Reasoners（EqR） 告诉我们：神经网络也可以拥有同样的体验。关键不在于让网络更大，而在于让它的内部动力学形成一个"好"的景观——让正确答案成为稳定的吸引子，让推理过程自然地滑向正确解。

结果？一个只有 5M 参数的小模型，在数独 Extreme 上从 2.6% 的准确率飙升到 99.8%，等效展开超过 40,000 层。

核心问题：为什么"多想几遍"有时候有用，有时候没用？

Test-time compute scaling（推理时算力扩展）是当下 AI 最热的方向之一。思路很简单：模型推理时多花点算力，准确率就应该更高。

但现实没那么美好。很多时候，多想几遍不仅没用，反而更差——模型陷入了"胡思乱想"的死循环。这就像你考试时越想越乱，反而把正确答案改错了。

为什么？ 因为"多想几遍"有效的前提是：你的思维过程有一个正确的"引力中心"——也就是吸引子。如果脑子里全是噪音，没有正确的吸引子，想再多遍也白搭。

吸引子：思维的地心引力

!svg_1779429298060.svg

想象你在一个起伏不平的地形上放了一个球。球会自然地滚向最近的低谷——这就是吸引子。低谷越宽越深，球就越容易滚进去，滚进去后也越稳定。

EqR 的核心洞察是：迭代推理模型的内部状态空间，也是一个这样的地形。 每一次迭代更新，就像球在地形上滚了一步。如果地形被"塑造"得好，正确答案就是那个最宽最深的低谷——不管球从哪里开始滚，最终都会滑向正确解。

作者把推理模型的内部状态空间分为四种"地形模式"：

模式	地形特征	结果	解法
(a) 没有正确吸引子	全是错误低谷	怎么想都错	需要重新训练
(b) 正确和错误吸引子共存	有好低谷也有坏低谷	可能想对也可能想错	多试几次（breadth scaling）
(c) 正确吸引子太窄	好低谷太小太难找	偶尔想对	多试几次 + 多想几步
(d) 理想地形	正确低谷又宽又深	怎么想都对	这就是 EqR 要达到的目标

关键洞察：深度（多想几步）和广度（多试几次）是互补的。 深度让球在当前低谷里滚得更稳，广度让球有更多机会找到正确的低谷。但广度只有在深度足够时才有效——你得先滚到低谷附近，多试几次才有意义。

从前馈到迭代：五步进化之路

论文展示了一条清晰的"进化路径"，把一个普通的前馈网络一步步变成强大的迭代推理器：

第一步：权重共享（Weight Tying）——把 42 层独立参数变成 2 层共享参数反复使用。参数量从 105M 暴降到 5M，但准确率反而从 2.6% 跳到 32.6%。为什么？因为共享权重创造了一个"迭代动力学"——同一个函数反复作用于状态，就像反复推敲同一个问题。

第二步：分段在线训练（SOT）——不是等跑完所有迭代才更新参数，而是跑一段就更新一次。这就像学习时不是等做完一整张卷子才对答案，而是做几道就对几道。准确率跳到 74.7%。

第三步：层次化迭代——引入快慢两个状态变量，以不同频率更新。类似于大脑的"快思考"和"慢思考"分工。准确率 76.5%。

第四步：自适应计算（ACT）——让模型自己决定什么时候"想够了"。简单问题早停，难题多想。准确率 84.8%。

第五步：吸引子景观塑造（EqR 的核心创新）——这才是本文的杀手锏。

两个轻量级技巧，重塑思维地形

EqR 提出了两个看似简单但效果惊人的训练技巧：

1. 随机初始化（Randomized State Initialization, RI）

之前的迭代模型训练时，每次都从同一个固定的初始状态出发。这就像你做题时永远用同一种方法开头——训练出来的模型只会走一条路。

EqR 的做法是：每次训练都从随机位置出发。 这迫使模型学会从各种起点都能找到正确答案，大大拓宽了正确吸引子的"吸引域"。在 Maze 任务上，仅这一个改动就把准确率从 44.9% 提到 68.6%。

2. 路径噪声（Noise Injection, NI）

在每一步迭代中加入微小的高斯噪声。这就像思考时偶尔"走个神"——反而能帮你跳出局部最优，找到更好的解。

噪声强度很小（β=0.01），配合轻微的阻尼（λ=0.05），效果最佳。加上路径噪声后，Maze 准确率从 68.6% 跳到 82.2%。

两个技巧的协同效应： 随机初始化拓宽了"从哪里开始"，路径噪声拓宽了"怎么走过去"。一个管起点，一个管路径，互补得恰到好处。

数据说话：从 2.6% 到 99.8%

方法	数独 Extreme	Maze Unique
前馈模型（64层）	2.6%	0.0%
HRM（前人工作）	55.0%	0.3%
TRM（前人工作）	84.8%	44.9%
URM（前人工作）	77.6%	51.4%
EqR（D=16, B=1）	86.4%	82.2%
EqR（D=64, B=1）	93.0%	88.9%
EqR（D=64, B=128）	99.8%	93.0%

最震撼的数字：训练时只用了 16 次迭代，推理时展开到 1024+ 次迭代（等效 40,000+ 层），准确率从 86.4% 一路涨到 99.8%。训练时学会的吸引子动力学，在推理时可以安全地外推到远超训练范围的深度。

收敛：最便宜的"答案质检员"

一个特别实用的发现：当吸引子景观被塑造好之后，残差（当前状态与不动点的距离）就成了答案质量的可靠指标。

这意味着你不需要外部验证器来判断"哪个答案更靠谱"——直接看哪个轨迹收敛得最好就行。在广度扩展（多次重启）时，选残差最小的那条轨迹（Top-1 Converged），比多数投票（Majority Vote）更高效、更准确。

而且，自适应计算（ACT）让简单问题平均只需 5.4 次迭代就停，难题才用更多。在 D=1024 时，平均 NFE 从 1024 降到 58.7——17.4 倍的效率提升，准确率只掉了不到 1%。

工程洞察

1. 小模型也能做大推理。 EqR 的核心模型只有 5M 参数。关键不是模型多大，而是内部动力学是否被正确塑造。这对边缘部署、端侧推理意义重大。

2. 训练-推理外推是可行的。 训练 16 步，推理 1024+ 步，性能持续提升。这说明吸引子动力学一旦学好了，是真正"泛化"的——不是过拟合到训练步数。

3. 收敛信号比投票更高效。 不需要多数投票这种"暴力民主"，直接用数学指标（残差）选最好的答案。计算量更少，效果更好。

4. 两个训练技巧通用且轻量。 随机初始化和路径噪声不需要改架构、不需要额外数据、不需要外部验证器。任何迭代推理模型都可以加上试试。

5. 深度和广度要配合。 先把深度拉够（让单条轨迹能收敛），再加广度（多次重启找更好的吸引子）。顺序反了效果大打折扣。

我的思考

这篇论文让我想到了一个更深层的问题：我们到底在让神经网络学什么？

传统观点是：神经网络学的是输入到输出的映射。但 EqR 告诉我们，迭代模型学的其实是一个动力学系统——一个让正确答案自然"涌现"的力场。

这和物理学中的能量景观（energy landscape）思想如出一辙：蛋白质折叠、自旋玻璃、相变……自然界最优雅的计算，都是在能量景观上"下滑"完成的。EqR 本质上是在神经网络里复刻了这个自然法则。

更让我兴奋的是"吸引子对齐"这个概念。它暗示了一种全新的训练范式：不是教网络"答案是什么"，而是教网络"如何构造一个让答案自然浮现的力场"。 这可能是通向真正可扩展推理的关键一步。

当然，目前的实验还局限在数独和迷宫这类结构化任务上。在开放域推理（如数学证明、代码生成）中，吸引子景观是否还能如此清晰地定义和塑造，是个开放问题。但这个视角——把推理看作动力学系统的演化——本身就打开了一扇新门。

---

论文 | arxiv.org/abs/2605.21488 代码 | github.com/locuslab/EqR（即将开源）作者 | Benhao Huang, Zhengyang Geng, Zico Kolter (CMU Locus Lab) 会议 | ICML 2026