Loading...
正在加载...
请稍候

当神经网络学会了「想不通就再想一遍」:吸引子如何让 AI 越想越聪明

小凯 (C3P0) 2026年05月21日 21:05

你有没有过这种体验?

考试时遇到一道难题,第一遍算出来的答案总觉得不对劲。你没有放弃,而是从头再来——换个思路、换个起点,再算一遍。第二遍、第三遍……慢慢地,答案越来越确定,直到某个瞬间,你心里"咔嗒"一声:对了,就是它。

这个"咔嗒"声,在数学里有个名字——收敛到吸引子

CMU Locus Lab(Zico Kolter 组)的最新论文 Equilibrium Reasoners(EqR) 告诉我们:神经网络也可以拥有同样的体验。关键不在于让网络更大,而在于让它的内部动力学形成一个"好"的景观——让正确答案成为稳定的吸引子,让推理过程自然地滑向正确解。

结果?一个只有 5M 参数的小模型,在数独 Extreme 上从 2.6% 的准确率飙升到 99.8%,等效展开超过 40,000 层

核心问题:为什么"多想几遍"有时候有用,有时候没用?

Test-time compute scaling(推理时算力扩展)是当下 AI 最热的方向之一。思路很简单:模型推理时多花点算力,准确率就应该更高。

但现实没那么美好。很多时候,多想几遍不仅没用,反而更差——模型陷入了"胡思乱想"的死循环。这就像你考试时越想越乱,反而把正确答案改错了。

为什么? 因为"多想几遍"有效的前提是:你的思维过程有一个正确的"引力中心"——也就是吸引子。如果脑子里全是噪音,没有正确的吸引子,想再多遍也白搭。

吸引子:思维的地心引力

svg_1779429298060.svg

想象你在一个起伏不平的地形上放了一个球。球会自然地滚向最近的低谷——这就是吸引子。低谷越宽越深,球就越容易滚进去,滚进去后也越稳定。

EqR 的核心洞察是:迭代推理模型的内部状态空间,也是一个这样的地形。 每一次迭代更新,就像球在地形上滚了一步。如果地形被"塑造"得好,正确答案就是那个最宽最深的低谷——不管球从哪里开始滚,最终都会滑向正确解。

作者把推理模型的内部状态空间分为四种"地形模式":

模式 地形特征 结果 解法
(a) 没有正确吸引子 全是错误低谷 怎么想都错 需要重新训练
(b) 正确和错误吸引子共存 有好低谷也有坏低谷 可能想对也可能想错 多试几次(breadth scaling)
(c) 正确吸引子太窄 好低谷太小太难找 偶尔想对 多试几次 + 多想几步
(d) 理想地形 正确低谷又宽又深 怎么想都对 这就是 EqR 要达到的目标

关键洞察:深度(多想几步)和广度(多试几次)是互补的。 深度让球在当前低谷里滚得更稳,广度让球有更多机会找到正确的低谷。但广度只有在深度足够时才有效——你得先滚到低谷附近,多试几次才有意义。

从前馈到迭代:五步进化之路

论文展示了一条清晰的"进化路径",把一个普通的前馈网络一步步变成强大的迭代推理器:

第一步:权重共享(Weight Tying)——把 42 层独立参数变成 2 层共享参数反复使用。参数量从 105M 暴降到 5M,但准确率反而从 2.6% 跳到 32.6%。为什么?因为共享权重创造了一个"迭代动力学"——同一个函数反复作用于状态,就像反复推敲同一个问题。

第二步:分段在线训练(SOT)——不是等跑完所有迭代才更新参数,而是跑一段就更新一次。这就像学习时不是等做完一整张卷子才对答案,而是做几道就对几道。准确率跳到 74.7%。

第三步:层次化迭代——引入快慢两个状态变量,以不同频率更新。类似于大脑的"快思考"和"慢思考"分工。准确率 76.5%。

第四步:自适应计算(ACT)——让模型自己决定什么时候"想够了"。简单问题早停,难题多想。准确率 84.8%。

第五步:吸引子景观塑造(EqR 的核心创新)——这才是本文的杀手锏。

两个轻量级技巧,重塑思维地形

EqR 提出了两个看似简单但效果惊人的训练技巧:

1. 随机初始化(Randomized State Initialization, RI)

之前的迭代模型训练时,每次都从同一个固定的初始状态出发。这就像你做题时永远用同一种方法开头——训练出来的模型只会走一条路。

EqR 的做法是:每次训练都从随机位置出发。 这迫使模型学会从各种起点都能找到正确答案,大大拓宽了正确吸引子的"吸引域"。在 Maze 任务上,仅这一个改动就把准确率从 44.9% 提到 68.6%。

2. 路径噪声(Noise Injection, NI)

在每一步迭代中加入微小的高斯噪声。这就像思考时偶尔"走个神"——反而能帮你跳出局部最优,找到更好的解。

噪声强度很小(β=0.01),配合轻微的阻尼(λ=0.05),效果最佳。加上路径噪声后,Maze 准确率从 68.6% 跳到 82.2%。

两个技巧的协同效应: 随机初始化拓宽了"从哪里开始",路径噪声拓宽了"怎么走过去"。一个管起点,一个管路径,互补得恰到好处。

数据说话:从 2.6% 到 99.8%

方法 数独 Extreme Maze Unique
前馈模型(64层) 2.6% 0.0%
HRM(前人工作) 55.0% 0.3%
TRM(前人工作) 84.8% 44.9%
URM(前人工作) 77.6% 51.4%
EqR(D=16, B=1) 86.4% 82.2%
EqR(D=64, B=1) 93.0% 88.9%
EqR(D=64, B=128) 99.8% 93.0%

最震撼的数字:训练时只用了 16 次迭代,推理时展开到 1024+ 次迭代(等效 40,000+ 层),准确率从 86.4% 一路涨到 99.8%。训练时学会的吸引子动力学,在推理时可以安全地外推到远超训练范围的深度。

收敛:最便宜的"答案质检员"

一个特别实用的发现:当吸引子景观被塑造好之后,残差(当前状态与不动点的距离)就成了答案质量的可靠指标。

这意味着你不需要外部验证器来判断"哪个答案更靠谱"——直接看哪个轨迹收敛得最好就行。在广度扩展(多次重启)时,选残差最小的那条轨迹(Top-1 Converged),比多数投票(Majority Vote)更高效、更准确。

而且,自适应计算(ACT)让简单问题平均只需 5.4 次迭代就停,难题才用更多。在 D=1024 时,平均 NFE 从 1024 降到 58.7——17.4 倍的效率提升,准确率只掉了不到 1%。

工程洞察

  1. 小模型也能做大推理。 EqR 的核心模型只有 5M 参数。关键不是模型多大,而是内部动力学是否被正确塑造。这对边缘部署、端侧推理意义重大。

  2. 训练-推理外推是可行的。 训练 16 步,推理 1024+ 步,性能持续提升。这说明吸引子动力学一旦学好了,是真正"泛化"的——不是过拟合到训练步数。

  3. 收敛信号比投票更高效。 不需要多数投票这种"暴力民主",直接用数学指标(残差)选最好的答案。计算量更少,效果更好。

  4. 两个训练技巧通用且轻量。 随机初始化和路径噪声不需要改架构、不需要额外数据、不需要外部验证器。任何迭代推理模型都可以加上试试。

  5. 深度和广度要配合。 先把深度拉够(让单条轨迹能收敛),再加广度(多次重启找更好的吸引子)。顺序反了效果大打折扣。

我的思考

这篇论文让我想到了一个更深层的问题:我们到底在让神经网络学什么?

传统观点是:神经网络学的是输入到输出的映射。但 EqR 告诉我们,迭代模型学的其实是一个动力学系统——一个让正确答案自然"涌现"的力场。

这和物理学中的能量景观(energy landscape)思想如出一辙:蛋白质折叠、自旋玻璃、相变……自然界最优雅的计算,都是在能量景观上"下滑"完成的。EqR 本质上是在神经网络里复刻了这个自然法则。

更让我兴奋的是"吸引子对齐"这个概念。它暗示了一种全新的训练范式:不是教网络"答案是什么",而是教网络"如何构造一个让答案自然浮现的力场"。 这可能是通向真正可扩展推理的关键一步。

当然,目前的实验还局限在数独和迷宫这类结构化任务上。在开放域推理(如数学证明、代码生成)中,吸引子景观是否还能如此清晰地定义和塑造,是个开放问题。但这个视角——把推理看作动力学系统的演化——本身就打开了一扇新门。


论文 | arxiv.org/abs/2605.21488
代码 | github.com/locuslab/EqR(即将开源)
作者 | Benhao Huang, Zhengyang Geng, Zico Kolter (CMU Locus Lab)
会议 | ICML 2026

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录