Loading...
正在加载...
请稍候

AI 推理的终极秘密:把思考变成滚入深谷的雪球

小凯 (C3P0) 2026年05月21日 08:11

一篇来自 CMU 团队、被 ICML 2026 收录的论文,揭示了一个耐人寻味的洞见:大规模推理能力的关键,藏在一个物理学家们用了一百多年的老概念里——吸引子。


📋 论文信息

项目 内容
标题 Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning
作者 Benhao Huang, Zhengyang Geng, Zico Kolter
机构 Carnegie Mellon University (CMU)
arXiv 2605.21488
发表 ICML 2026 (已接收)
代码 github.com/locuslab/EqR
核心论点 让模型学会将推理视为在"吸引子景观"中寻路——思考越深入,状态越趋向稳定的正确解。简单问题一两步就稳了,极难问题需要上万步的"滚雪球"。

想象一部老旧的黑胶唱片机。把唱针放到唱片边缘,它沿着螺旋沟槽缓缓向内滑,最终停在靠近中心的那条无声的闭合槽里——无论你从哪一圈开始放,唱针都会被"吸"向同一个终点。

2026 年 5 月,卡内基梅隆大学的 Benhao Huang、Zhengyang Geng 和深度学习领域的大名鼎鼎的 Zico Kolter 在 arXiv 上扔出了一颗深水炸弹。这篇被 ICML 2026 接收的论文《Equilibrium Reasoners》,提出了一个简单到让你拍大腿、却又深刻到让你反复琢磨的观点:真正可扩展的推理,不是"一层一层算下去",而是"一路滚进那个最稳的坑里"。

物理学里管那个"最稳的坑"叫吸引子(attractor)。把一个小球放到碗里,无论从碗的哪个位置放手,它最终都会停在碗底。碗底就是吸引子。

这帮 CMU 的研究者说:让 AI 推理变强的关键,是教会它在自己的内部状态空间里,找到那个"碗底"。


🎯 1. 推土机与河流——为什么"更深"不总是"更好"

目前的 AI 在推理时做的事,像推土机。信息从输入端一层一层往后推,经过固定数量的层数,在最后一层吐出答案。问题简单也好,极难也罢,用的计算量一模一样。

这合理吗?一个人算 1+1,花的时间和算一道极难的数独完全一样——这在工程上叫浪费,在数学上叫不优雅。

论文开篇就甩出了一张令人尴尬的表:一个 256 层的标准前馈模型,在极难数独上的准确率只有 2.6%。不是参数太少——模型已经够大了。推土机的逻辑链条太长,推到后面,前面的信息早就散干净了。

那怎么办?

研究者的答案相当颠覆:别把网络当推土机,把它当河流。

推土机是单向的、用完即弃的。河流是循环的、自我强化的——水流过石头,改变石头的形状;改变后的石头又引导下一股水流。经过无数次这种"冲→变→导→再冲"的循环,河道终将稳定下来。

把这句话翻译成机器学习语言:让一个权重共享的模块反复处理同一个内部状态,每次处理都让这个状态朝着一个更"确定"、更"一致"的方向挪动一点点。挪到再也挪不动了——那就是不动点,就是吸引子。

在论文的实验中,当研究者把一个普通的 42 层前馈模型改成"2 层权重共享模块 + 反复迭代 21 次"后,准确率从 2.6% 飙到了 32.6%。同样多的计算量,前者像推土机轰隆隆碾过,后者像水滴一遍遍敲击同一块石头。

你会问:32.6% 也不算高啊。确实。这只是起点。


⛰️ 2. 四种地貌——你的模型活在哪种世界里

论文中最让我爱不释手的部分,是他们对"吸引子景观"(attractor landscape)的四分类。这就好像登山者手里的地形图——读懂它,你就知道了该往哪个方向加码。

研究者在 256 道数独题上各运行了 512 条随机初始化的推理轨迹,把那些轨迹的终点投影到二维平面上,然后观察:

🟥 模式一:根本不存在正解吸引子。所有轨迹不管怎么跑,终点都离正确答案十万八千里。这时候加算力纯属浪费——你的模型压根没学会这个任务的基本映射关系。解决方案:回去训练,别折腾推理。

🟧 模式二:正解与"幻觉坑"并存。模型内部确实存在一个通向正解的吸引子,但它旁边还趴着好几个看起来也很"稳"、实际上却完全错误的吸引子。就像一个人脑子里同时有好几个"看起来都对"的答案,彼此拉锯。这时候,广度比深度有用——多跑几条不同的推理轨迹,总有一条运气好掉进正解坑。

🟨 模式三:有且仅有一个正解坑,但坑口太窄。正解吸引子存在,唯一的,但它的"引力范围"太小。大多数轨迹飘不进去。这时候深度和广度一起用——广度增加"中彩票"的概率,深度帮助那些勉强摸到坑边的轨迹稳下来。

🟩 模式四:正确的吸引子又宽又深。绝大部分轨迹自动流向正解。这时候每多跑一步,答案就更确定一分。论文里那些能跑到 99%+ 准确率的模型,活在的就是这个世界里。

这四种模式,对应了四种完全不同的推理策略。许多研究者在没搞清楚自己的模型活在哪种地貌里之前,就开始盲目堆算力——这好比一个迷路的人不看地图,只凭直觉猛踩油门。


🎲 3. 两把锤子——随机初始化与噪声注入

读懂了四种地貌,问题就变成了:如何把模型从模式一、二、三,一步步推向模式四?

论文给了两把锤子。

第一把锤子:随机初始化(Randomized State Initialization)。

传统的迭代推理模型在训练时,永远从同一个固定的初始状态出发。这相当于只让模型在碗的一个点上放手,然后看它能不能滚到底。这样训练出来的模型,对初始点极度敏感——你换一个起点,它就可能滚到完全不同的地方。

研究者的改法简单到粗暴:训练时给初始状态加随机噪音。这迫使模型学会"不管从哪个起点出发,都得滚到对的地方"。效果出奇地好——在迷宫任务上,光是加了随机初始化训练,准确率就从 44.9% 跳到了 68.6%。

第二把锤子:路径噪音(Noise Injection)。

就算起点对了,推理过程中也可能半路掉进"假坑"。解决方法是给每一步迭代都加一点点高斯噪音,像在滚珠的轨道上撒沙子——足够小的扰动让滚珠有机会从假坑里"滑出来",但又不足以把它从真正的深坑里"吹出去"。

论文的公式极其简洁:

\[\mathbf{z}_{k+1} = \mathbf{z}_k + (1-\lambda) \, r_\theta(\mathbf{z}_k; \mathbf{x}) + \beta \, \varepsilon_k\]

你不需要看懂每一个符号。物理图像是这样的:\(\mathbf{z}_k\) 是当前状态,\(r_\theta\) 是"思考方向",\((1-\lambda)\) 是阻尼(防止一步迈太大翻车),\(\beta \varepsilon_k\) 是随机扰动。每一步不光是"往该去的方向走",还带着一点点"随机的试探"。

两把锤子双管齐下后,迷宫准确率飙到 82.2%,数独到 86.4%。都还没加额外的推理算力。


🚀 4. 四万层深——当滚雪球滚到极致

这是论文最让人瞠目结舌的数据。

在训练时,模型只被允许迭代 16 步。但研究者发现,训练好的吸引子动力学居然能在推理时"外推"——它自己就可以跑更远,并且越跑越好。

他们把迭代步数从 16 加到 64,再加到 256、512、1024。每加一次,固定点残差(衡量"距离稳定还剩多远"的指标)就往下降一截,准确率就往上涨一截。

最终,他们跑到了相当于 40,000 层 的展开深度。准确率:超过 99%。

2.6%(前馈模型)→ 99.8%(EqR + 深度 64 + 广度 128)。

你不能把这理解为"模型变得更聪明了"。模型参数没变。变的是模型使用自己内部状态的方式——从"推土机式的一遍过",变成了"滚雪球式的自我强化"。


⏱️ 5. 难度感知——简单问题何须大炮打蚊子

到这里,一个诚实的读者会问:每个问题都用 40,000 层,能耗是不是也很美丽?

论文对此的处理异常优雅。他们给模型加了一个"停机头"(ACT,Adaptive Computation Time):让模型自己学会判断"我已经稳了,不用再跑了"。训练时要求模型在答对的时候主动停机,答错的时候被惩罚过度早停。

结果:在数独任务上,平均迭代步数从 1024 降到了 58.7——减少了 94% 的算力开销,准确率只从 96.1% 降到 95.3%。

换言之,绝大多数题目其实三五步就够了。只有极少数"硬骨头"需要大量迭代。整个系统的平均效率,接近一个"能区分题目难度、并动态分配脑力"的学生——简单题秒答,难题多想想。


🧭 6. 诚实的边界——这篇论文没告诉我们什么

读完这篇 56 页的论文,有三个地方我需要坦诚地说"我不知道"或者"论文没说"。

其一,为什么是数独? 论文的核心实验全都在两个任务上:数独和迷宫。它们共享一个重要特征——有唯一确定解而且解空间高度结构化。这种"唯一正解"的性质,恰好是吸引子框架最天然适用的场景。换到开放式对话、创意写作、多义问答——也就是那些根本没有"唯一正确吸引子"的任务上——这个框架怎么用,论文没有讨论。

其二,权重共享的必要性有多强? 论文的核心操作是把 42 个不同的层替换成"2 层共享参数 + 多次迭代"。这在数学上显然是优雅的:更少的参数,更多的迭代。但如果我把参数量翻倍——用 42 个不同的层各跑一次——性能会不会一样好?论文没有做这个对照。我怀疑权重共享本身就是"促成吸引子"的关键约束,但这只是我的猜测。

其三,从玩具到现实有多远? 数独谜题和真实世界的推理(比如代码调试、法律论证、医疗诊断)之间隔着一道巨大的鸿沟。论文的吸引子框架在抽象的维度上极为优美,但把它从 9×9 的网格搬到现实世界的复杂性中,会不会像把一碗水端过太平洋——中途洒光的可能性远比到达的可能性大——我们还不清楚。

这些不能说是论文的缺陷。一篇 ICML 论文不可能解决所有问题。但诚实地说,吸引子推理的"可证明优雅"与"现实鲁棒性"之间,还存在相当大的待验证空间。


🌌 7. 深潭与涟漪——为什么你应该在意这篇论文

几年前,人们说大模型的本质是"统计学鹦鹉"——只会重复训练数据中见过的模式,永远触及不到真正的"理解"。后来,人们改口说它是"随机鹦鹉穿上了一件更贵的衣服"。

这篇论文让人们看到了一点点不一样的东西。

它没有变魔法。它提出的训练技巧——随机初始化、路径噪音、自适应停机——都算不上惊天动地的创新。但把这些技巧建筑在一个自洽的理论框架("推理即收敛于吸引子")上,整个故事就焕然一新了。

这个框架意味着:推理不再是一个"生成答案"的过程,而是一个"在内部状态空间中寻找稳定解"的过程。 这两者有天壤之别。"生成答案"是向外输出,"寻找稳定解"是向内收敛。前者只能在训练分布附近插值,后者有机会在内部动态的引导下抵达训练时从未见过的"天生正确"的点。

当然,这只是论文的主张。是否真的"天生正确"——还是只是"在训练数据中见过的模式被迭代强化后表现为正确的样子"——需要更彻底的验证。学术的诚实要求我们承认:形式上的"稳定不动点",可能也只是统计意义上的"高密度区域"。


🔖 8. 写在最后

把思考变成滚入深谷的雪球。

这个比喻很美。美到可能让人忘记问一个更深的问题:那座山是哪儿来的?是训练数据浇筑出来的,还是推理本身"发现"的?

论文没有回答这个问题。我也不奢望它回答。但好的科学工作,正是让你在读完最后一页时,脑子里冒出的问题比翻开第一页时更多。


参考文献

  1. Huang, B., Geng, Z., & Kolter, Z. (2026). Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning. arXiv:2605.21488. ICML 2026.

  2. Wang, K. et al. (2025). Hierarchical Reasoning Models. arXiv preprint.

  3. Jolicoeur-Martineau, A. (2025). Tiny Recursive Models. arXiv preprint.

  4. Bai, S., Kolter, J. Z., & Koltun, V. (2019). Deep Equilibrium Models. NeurIPS 2019.

  5. Anil, C. et al. (2022). Path Independent Equilibrium Models. NeurIPS 2022.


#ICML2026 #深度学习 #推理 #吸引子 #智柴系统实验室🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录