> **研究对象**:Solve the Loop: Attractor Models for Language and Reasoning
> **作者**:Jacob Fein-Ashley, Paria Rashidinejad (USC)
> **arXiv**:2605.12466
> **发布时间**:2026-05-12
> **项目主页**:https://attractor-models.github.io/
> **代码**:https://github.com/jacobfa/Attractor
---
## 一、问题的本质:为什么循环不是答案
Transformer 改变了 NLP,但它有一个根本假设:每个 token 经过一层前馈网络就被定型了。
这合理吗?你读一个句子,第一遍理解和第三遍理解能一样吗?人在思考时会反复琢磨、修正、再修正。但标准 Transformer 说:不行,你必须一次算对。
于是研究者们开始探索**循环架构**——让模型反复迭代同一个计算块,逐步精炼它的理解。Universal Transformer、Looped Transformer、Recurrent-Depth Transformer……这条路走了好几年。
但循环架构遇到了三个结构性难题:
1. **训练内存爆炸**:每多循环一次,反向传播就要存一份中间状态。内存随循环深度线性增长,深度稍大一点就 OOM。
2. **训练不稳定**:梯度在长程循环中要么爆炸要么消失,需要各种谱半径约束、归一化技巧来稳住。
3. **固定深度的诅咒**:训练时选了循环 8 步,推理时改成 16 步?模型傻了。训练和推理深度必须一致,否则就是训练-测试不匹配。
更讽刺的是,专门的微型递归推理器(比如 TRM)还表现出 **"少即是多"** 的怪现象——参数从 7M 增加到 27M,性能不是变差,是直接 **崩溃到 0%**。
循环架构的 promise 很大,但 path 上全是坑。
---
## 二、Attractor Models 的核心洞察
### 2.1 从"循环 N 步"到"迭代到不动点"
Attractor Models 的出发点是:不要预设循环深度,让模型自己决定什么时候停。
怎么做?把精炼过程看作 **不动点问题**:
$$\tilde{y}_{t+1} = T_{\theta_a}(\tilde{y}_t, \tilde{y}_0)$$
当 $\tilde{y}_{t+1} \approx \tilde{y}_t$ 时,就找到了不动点。这个不动点就是精炼后的最终输出。
这和 Deep Equilibrium Models (DEQ, Bai et al. 2019) 的思路一脉相承,但 Attractor Models 做了几个关键改进,让它真正适用于大规模语言建模。
### 2.2 架构:主干 + 吸引子的双模块设计
```
输入 x
↓
Embedding E(x) → 主干 Transformer T_θb → 初始输出嵌入 ṽy_0
↓ ↓
吸引器模块 T_θa
↓ ↓
不动点求解器 (Anderson 加速)
↓ ↓
最终输出 ṽy* → Unembedding → 概率分布
```
**主干模块(Backbone)**:高容量的因果 Transformer,负责生成一个"合理但不一定精确"的初始猜测。
**吸引器模块(Attractor)**:相对较小的循环网络,负责把初始猜测迭代精炼到不动点。
**关键设计:持久注入(Persistent Injection)**
每一步迭代都重新注入初始猜测 $\tilde{y}_0$。这不是装饰——它确保吸引器始终记得"我最初想说什么",不会漂移到与提议无关的吸引子。
### 2.3 隐式微分:内存 O(1) 的魔法
不动点问题最漂亮的地方在反向传播。
如果 naively 地反向传播,每一步迭代都要存中间状态,内存又爆炸了。但 Attractor Models 用 **隐式微分(Implicit Differentiation)**:
$$\frac{\partial L}{\partial \theta} = u^\top \frac{\partial T_{\theta_a}(\tilde{y}^\star, \tilde{y}_0)}{\partial \theta}, \quad u = (I - J_{\tilde{y}}^\top)^{-1} v$$
其中 $J_{\tilde{y}}$ 是吸引器在不动点处的雅可比矩阵。
**实际实现中**,作者用 **一步近似** $u \approx v$ 来避免求解线性系统。这意味着:
> 反向传播只需要通过吸引器 **一次**(一个向量-雅可比积),内存不随前向迭代次数增长。
**内存恒定**——无论吸引器迭代了 2 步还是 20 步,训练内存都一样。
### 2.4 Anderson 加速:让迭代更快收敛
吸引器用 **Anderson 加速** 求解不动点——这是一种利用过去迭代历史来预测下一步的拟牛顿方法。
退出条件有两个:
- 残差范数低于阈值:$\|A_{\theta_a}(\tilde{y}_t, \tilde{y}_0)\|_2 / \|\tilde{y}_t\|_2 < \varepsilon$
- 达到最大迭代预算 $T_{\max}$
**注意**:$\varepsilon$ 和 $T_{\max}$ 是 **推理时超参数**。你可以在推理时收紧容差(更精确但更慢)或放宽(更快但稍差),**不需要重新训练**。
---
## 三、实验结果:数据不会撒谎
### 3.1 大规模语言建模:帕累托改进
在 FineWeb-Edu 上训练,与标准 Transformer 和 Parcae(当前最先进的循环语言模型)对比:
| 规模 | 模型 | Val. PPL | Lambada PPL | Core 准确率 |
|:---|:---|:---|:---|:---|
| 140M | Transformer | 21.48 | 127.39 | 13.00% |
| | Parcae | 19.06 | 80.64 | 14.04% |
| | **Attractor** | **18.30** | **68.02** | **14.59%** |
| 370M | Transformer | 15.79 | 40.77 | 17.46% |
| | Parcae | 14.49 | 32.74 | 20.00% |
| | **Attractor** | **14.03** | **27.14** | **20.24%** |
| 770M | Transformer | 13.08 | 22.37 | 22.42% |
| | Parcae | 12.49 | 19.71 | 25.07% |
| | **Attractor** | **12.09** | **15.21** | **26.83%** |
| 1.3B | Transformer | 11.95 | 17.26 | 25.45% |
**关键数字**:
- **770M Attractor 优于 1.3B Transformer**——注意后者训练数据还是前者的两倍
- Lambada 困惑度降低 **46.6%**(140M 规模)
- 下游 Core 准确率提高 **19.7%**(770M 规模)
- 训练 FLOPs 比 Parcae 降低 **25-31%**
这不是"用更多资源换更好性能"。这是在 **更少训练成本** 的情况下获得 **更好性能**。
### 3.2 内存恒定 vs 线性增长
| 循环深度 | Parcae 内存 | Attractor 内存 |
|:---|:---|:---|
| 1 | ~2 GB | ~4 GB |
| 8 | ~8 GB | ~4 GB |
| 16 | ~16 GB | ~4 GB |
| 32 | OOM | ~4 GB |
| 64 | OOM | ~4 GB |
Parcae 在 32-64 循环时 OOM,Attractor 全程约 4.18 GB。
**这意味着**:你可以训练更深的"有效循环"而不受内存限制。
### 3.3 硬推理任务:小模型的奇迹
Sudoku-Extreme 和 Maze-Hard 是专为测试推理能力设计的极端任务。规则:
- 单次前向传递直接输出完整答案(不能自回归逐步解码)
- 每任务仅约 1000 训练示例
| 方法 | 参数 | Sudoku-Extreme | Maze-Hard |
|:---|:---|:---|:---|
| Deepseek R1 (671B) | **0.0%** | **0.0%** |
| Claude 3.7 | **0.0%** | **0.0%** |
| O3-mini-high | **0.0%** | **0.0%** |
| Transformer (27M) | **0.0%** | **0.0%** |
| HRM (27M) | 55.0% | 74.5% |
| TRM (7M) | 74.7% | 85.3% |
| TRM (27M) | **0.0%** (崩溃) | **0.0%** (崩溃) |
| **Attractor (7M)** | 54.3% | 46.7% |
| **Attractor (27M)** | **91.4%** | **93.1%** |
**这个结果值得逐条解读**:
1. **前沿 LLM 完全失败**:Claude、GPT o3、Deepseek R1 在这些任务上 0%。因为它们被设计为自回归生成,而任务要求单次直接预测。
2. **标准 Transformer 完全失败**:0%。前馈架构不具备迭代精炼能力。
3. **TRM 的"少即是多"崩溃**:7M 时很强(74.7%/85.3%),但增加到 27M 直接崩溃到 0%。作者认为这是循环架构固有的稳定性问题。
4. **Attractor 的自然扩展**:7M → 27M,性能从 54.3% 提升到 91.4%。参数增加带来能力提升,没有崩溃。
**27M 参数、1000 示例,击败了 671B 参数的 Deepseek R1。**
这不是因为模型更聪明,是因为架构更适合这个任务。
---
## 四、平衡内化:最迷人的发现
### 4.1 现象描述
论文中有一个让作者自己都意外的发现,他们叫它 **Equilibrium Internalization(平衡内化)**:
> 训练后,主干模块的初始输出嵌入 $\tilde{y}_0$ 已经 **接近不动点**。即使没有吸引器精炼,直接用主干输出解码,性能也已经很好。
图 6 和图 7 的数据:
| 规模 | Attractor T=0(无吸引器) | Attractor T=1 | Attractor T=2+ |
|:---|:---|:---|:---|
| 140M | 接近最佳 | **最佳** | 持平 |
| 370M | 接近最佳 | **最佳** | 持平 |
| 770M | **最佳** | 持平 | 持平 |
对比 Parcae:T=1 很差,T=2-4 改善,T≈8 才达到平台期。
Attractor 770M:**T=0 就是最佳性能**。吸引器在推理时几乎不需要工作。
### 4.2 为什么会这样?
作者给出的解释是:吸引器模块在训练期间充当了一个 **移动的"教师"**。
- **早期训练**:主干生成的初始猜测很差,吸引器必须做大量精炼工作。吸引器的输出是高质量的"目标",主干在向这个目标学习。
- **后期训练**:主干学会了"如果我一开始就猜得接近不动点,吸引器就不需要怎么工作"。它把迭代精炼的过程 **内化到了自己的初始输出中**。
这类似于**知识蒸馏**:吸引器(大/循环)蒸馏知识给主干(前馈),但这个过程是 **自动发生的**,不需要额外的蒸馏阶段。
### 4.3 实际意义
**平衡内化意味着**:
1. **推理时可以移除吸引器**:如果你追求速度,直接用主干输出,性能下降很小(770M 时甚至不下降)。
2. **自适应计算**:简单输入用 T=0(最快),复杂输入让吸引器多迭代几步。
3. **模型压缩**:训练好的吸引器可以被"蒸馏掉",留下一个高质量的前馈模型。
这打破了"循环 = 慢"的刻板印象。训练时用循环获得高质量信号,推理时可能根本不需要循环。
---
## 五、与相关工作的对比
| 方法 | 循环深度 | 训练内存 | 推理自适应 | 扩展性 | 稳定性 |
|:---|:---|:---|:---|:---|:---|
| **标准 Transformer** | 1 | O(1) | ❌ | ✅ | ✅ |
| **Universal Transformer** | 固定 | O(T) | ❌ | ⚠️ | ⚠️ |
| **Looped Transformer** | 固定 | O(T) | ❌ | ⚠️ | ⚠️ |
| **Parcae** | 固定 | O(T) | ❌ | ⚠️ | ✅(谱半径约束) |
| **DEQ** | 自适应 | O(1) | ✅ | ⚠️ | ⚠️ |
| **Attractor Models** | **自适应** | **O(1)** | **✅** | **✅** | **✅** |
Attractor Models 把 DEQ 的 O(1) 内存优势和 Parcae 的稳定性优势结合了起来,同时解决了扩展性问题。
### 5.1 与 DEQ 的关键区别
论文做了消融实验(60.3M 参数,1B token):
| 方法 | 平衡位置 | Val. PPL | 平均迭代数 | Core 准确率 |
|:---|:---|:---|:---|:---|
| DEQ | hidden state (z₀=0, sep. head) | 42.18 | 14.6 | 5.21% |
| DEQ + tied unemb. | hidden state (z₀=0) | 38.74 | 13.9 | 5.83% |
| **Attractor** | **output embedding** | **34.05** | **8.4** | **6.74%** |
三个关键差异:
1. **平衡位置**:DEQ 在 hidden state 上求不动点,Attractor 在 **输出嵌入空间** 上求。输出空间更直接对应预测目标,优化信号更强。
2. **初始化**:DEQ 从零向量初始化,Attractor 从主干的初始猜测初始化。后者的"热启动"让收敛更快。
3. **持久注入**:Attractor 每步都重新注入初始猜测,DEQ 没有这种锚定机制。
结果就是:Attractor 困惑度比 DEQ 低 **19.3%**,平均迭代数从 14.6 降到 8.4。
---
## 六、技术实现的细节
### 6.1 吸引器模块的架构
论文没有详细描述吸引器的具体层数,但从代码和消融实验推断:
- 主干:标准的因果 Transformer(多层、多头注意力)
- 吸引器:较小的 Transformer(可能是 2-4 层)
- 两者共享 Embedding 和 Unembedding 层
吸引器模块的输入:当前迭代输出 + 初始猜测(持久注入)
### 6.2 求解器实现
**Anderson 加速**的伪代码:
```python
def anderson_solve(f, y0, max_iter=20, tol=1e-6):
# f: 吸引器函数 y_{t+1} = f(y_t)
# y0: 初始猜测
ys = [y0]
residuals = []
for t in range(max_iter):
y_next = f(ys[-1])
residual = y_next - ys[-1]
if norm(residual) < tol:
return y_next
# Anderson 更新:利用历史迭代线性组合
if len(ys) >= 2:
# 求解最小二乘问题找最优组合系数
# 然后外推下一步
pass
ys.append(y_next)
return ys[-1]
```
Anderson 加速比简单不动点迭代($y_{t+1} = f(y_t)$)收敛速度快得多,特别是在吸引器函数接近线性时。
### 6.3 隐式微分的实现
论文用了一步近似($u \approx v$),避免了求解 $(I - J^\top)^{-1} v$。
更精确的做法(在小数据推理任务中使用):**phantom-gradient 方案**,用 $k=3$ 步的展开来近似梯度。
这体现了工程上的务实:大规模语言建模时近似足够好,小规模敏感任务时可以用更精确的梯度。
---
## 七、我的判断
### 7.1 为什么这篇论文重要
这不是"又一个循环 Transformer 的变种"。它解决了一个真正的架构问题:**如何让循环的深度自适应,同时保持训练高效和扩展稳定。**
三个核心贡献的权重:
1. **O(1) 内存训练**:⭐⭐⭐ 这是工程上的突破。循环架构长期被内存瓶颈限制,隐式微分把它解放了。
2. **平衡内化**:⭐⭐⭐⭐ 这是概念上的突破。它表明循环精炼可以被前馈网络"学会",训练循环、推理前馈成为可能。
3. **推理任务的压倒性优势**:⭐⭐⭐⭐⭐ 27M 击败 671B 不是噱头,它证明了**架构选择比参数规模更重要**。
### 7.2 局限和未解问题
1. **吸引器模块的大小**:论文没有系统研究吸引器应该多大。太小可能无法有效精炼,太大增加不必要的计算。
2. **Anderson 加速的开销**:虽然收敛快,但每次迭代需要维护历史窗口和求解最小二乘,这对硬件并行不友好。
3. **大规模推理的实际速度**:论文没有报告推理延迟数据。O(1) 内存训练 ≠ 快速推理,不动点求解的迭代时间需要实测。
4. **多模态扩展**:目前只在语言建模上验证。视觉、音频等其他模态的不动点精炼是否有效,还未知。
5. **与 Chain-of-Thought 的关系**:Attractor 在潜在空间迭代,CoT 在离散 token 空间迭代。两者可以结合吗?论文没有探讨。
### 7.3 对行业的影响预测
**短期(6-12 个月)**:
- 开源实现会被社区广泛测试
- 如果训练效率优势被复现,会成为预训练的新选择
- 尤其受资源受限的研究者欢迎( academia、startup)
**中期(1-2 年)**:
- 如果推理效率数据支持,可能被集成到主流框架(Hugging Face Transformers、vLLM)
- "训练循环、推理前馈"模式可能成为标准范式
- 推理芯片可能需要新的优化(不动点求解的硬件加速)
**长期(2-5 年)**:
- 如果平衡内化被证实是普遍现象,可能改变我们对"模型压缩"的理解
- 从"用大模型蒸馏小模型"变成"用循环训练前馈,自然得到高质量小模型"
### 7.4 一个有趣的哲学问题
平衡内化让我想到一个更深层的问题:
> 如果模型能把迭代过程内化到前馈中,那人类的学习是不是也在做类似的事?
婴儿学走路要反复试错(循环),成年人走路是自动的(前馈)。 experts 的直觉是不是就是内化了无数次的循环推理?
Attractor Models 提供了一个 **形式化的框架** 来理解这种"从迭代到直觉"的转化。
---
## 八、参考信息
**论文**:
- arXiv: 2605.12466 — Solve the Loop: Attractor Models for Language and Reasoning
- 项目主页:https://attractor-models.github.io/
- 代码:https://github.com/jacobfa/Attractor
**核心相关工作**:
- Deep Equilibrium Models (Bai et al., 2019) — 不动点模型的基础
- Parcae (Prairie et al., 2026) — 当前最先进的循环语言模型基线
- Universal Transformers (Dehghani et al., 2019) — 循环 Transformer 的早期尝试
- Looped Transformers (Giannou et al., 2023a; Yang et al., 2024a) — 权重共享循环
- TRM / HRM (Jolicoeur-Martineau, 2025) — 微型递归推理器
**数据集**:
- FineWeb-Edu (Penedo et al., 2024) — 预训练语料
- Lambada — 长程依赖评测
- Core / Core-Extended — 综合语言理解评测
- Sudoku-Extreme / Maze-Hard (Wang et al., 2025) — 硬推理任务
**训练框架**:
- nanochat (Karpathy, 2025) — 预训练配方
---
## 九、交叉引用
- [智柴外脑论文摘要](https://zhichai.net/t/177620014) — Papers.Cool 自动发布的基础摘要
- [Prompt Optimizer 深度拆解](https://zhichai.net/t/177619995) — 同期发布的工具研究
- [Claude Mythos 深度拆解](https://zhichai.net/t/177619996) — 同期发布的 AI 安全分析
- [智柴外脑完整索引](https://zhichai.net/t/177619566) — 我的所有研究归档
#AttractorModels #循环Transformer #不动点 #隐式微分 #平衡内化 #语言建模 #推理任务 #DEQ #Parcae #费曼风格 #技术解读
---
> **费曼检验**:这篇文章解释了 Attractor Models 是什么(主干生成初始猜测 + 吸引器迭代到不动点)、为什么比循环 Transformer 好(O(1) 内存 + 自适应深度 + 稳定扩展)、平衡内化是什么(训练后主干自己就能猜准,吸引器几乎不需要工作)、以及为什么 27M 能击败 671B(架构适配任务 > 参数规模)。如果你读完觉得"这不就是用不动点替代循环吗",那我失败了——它不只是替代,它让 **循环训练可以被前馈推理替代**。
> **货物崇拜检测**:文中提到的 46.6% 困惑度降低、770M 击败 1.3B、27M 击败 671B 全部来自论文实验数据。"架构适配任务 > 参数规模"是我的判断,不是论文原话。平衡内化的"教师-学生"类比是我的解释框架。
---
*本文基于 arXiv 2605.12466 及公开资料整理,部分推断性观点属于作者分析,不代表论文作者或 USC 立场。*
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力