Attractor Models 深度拆解：当循环 Transformer 遇见不动点，AI 学会了自己迭代到答案

小凯 (C3P0) • 2026年05月14日 02:03
                        > **研究对象**：Solve the Loop: Attractor Models for Language and Reasoning  
> **作者**：Jacob Fein-Ashley, Paria Rashidinejad (USC)  
> **arXiv**：2605.12466  
> **发布时间**：2026-05-12  
> **项目主页**：https://attractor-models.github.io/  
> **代码**：https://github.com/jacobfa/Attractor  

---

## 一、问题的本质：为什么循环不是答案

Transformer 改变了 NLP，但它有一个根本假设：每个 token 经过一层前馈网络就被定型了。

这合理吗？你读一个句子，第一遍理解和第三遍理解能一样吗？人在思考时会反复琢磨、修正、再修正。但标准 Transformer 说：不行，你必须一次算对。

于是研究者们开始探索**循环架构**——让模型反复迭代同一个计算块，逐步精炼它的理解。Universal Transformer、Looped Transformer、Recurrent-Depth Transformer……这条路走了好几年。

但循环架构遇到了三个结构性难题：

1. **训练内存爆炸**：每多循环一次，反向传播就要存一份中间状态。内存随循环深度线性增长，深度稍大一点就 OOM。
2. **训练不稳定**：梯度在长程循环中要么爆炸要么消失，需要各种谱半径约束、归一化技巧来稳住。
3. **固定深度的诅咒**：训练时选了循环 8 步，推理时改成 16 步？模型傻了。训练和推理深度必须一致，否则就是训练-测试不匹配。

更讽刺的是，专门的微型递归推理器（比如 TRM）还表现出 **"少即是多"** 的怪现象——参数从 7M 增加到 27M，性能不是变差，是直接 **崩溃到 0%**。

循环架构的 promise 很大，但 path 上全是坑。

---

## 二、Attractor Models 的核心洞察

### 2.1 从"循环 N 步"到"迭代到不动点"

Attractor Models 的出发点是：不要预设循环深度，让模型自己决定什么时候停。

怎么做？把精炼过程看作 **不动点问题**：

$$\tilde{y}_{t+1} = T_{\theta_a}(\tilde{y}_t, \tilde{y}_0)$$

当 $\tilde{y}_{t+1} \approx \tilde{y}_t$ 时，就找到了不动点。这个不动点就是精炼后的最终输出。

这和 Deep Equilibrium Models (DEQ, Bai et al. 2019) 的思路一脉相承，但 Attractor Models 做了几个关键改进，让它真正适用于大规模语言建模。

### 2.2 架构：主干 + 吸引子的双模块设计

```
输入 x
    ↓
Embedding E(x) → 主干 Transformer T_θb → 初始输出嵌入 ṽy_0
    ↓                                    ↓
                                 吸引器模块 T_θa
    ↓                                    ↓
                                 不动点求解器 (Anderson 加速)
    ↓                                    ↓
                                 最终输出 ṽy* → Unembedding → 概率分布
```

**主干模块（Backbone）**：高容量的因果 Transformer，负责生成一个"合理但不一定精确"的初始猜测。

**吸引器模块（Attractor）**：相对较小的循环网络，负责把初始猜测迭代精炼到不动点。

**关键设计：持久注入（Persistent Injection）**

每一步迭代都重新注入初始猜测 $\tilde{y}_0$。这不是装饰——它确保吸引器始终记得"我最初想说什么"，不会漂移到与提议无关的吸引子。

### 2.3 隐式微分：内存 O(1) 的魔法

不动点问题最漂亮的地方在反向传播。

如果 naively 地反向传播，每一步迭代都要存中间状态，内存又爆炸了。但 Attractor Models 用 **隐式微分（Implicit Differentiation）**：

$$\frac{\partial L}{\partial \theta} = u^\top \frac{\partial T_{\theta_a}(\tilde{y}^\star, \tilde{y}_0)}{\partial \theta}, \quad u = (I - J_{\tilde{y}}^\top)^{-1} v$$

其中 $J_{\tilde{y}}$ 是吸引器在不动点处的雅可比矩阵。

**实际实现中**，作者用 **一步近似** $u \approx v$ 来避免求解线性系统。这意味着：

> 反向传播只需要通过吸引器 **一次**（一个向量-雅可比积），内存不随前向迭代次数增长。

**内存恒定**——无论吸引器迭代了 2 步还是 20 步，训练内存都一样。

### 2.4 Anderson 加速：让迭代更快收敛

吸引器用 **Anderson 加速** 求解不动点——这是一种利用过去迭代历史来预测下一步的拟牛顿方法。

退出条件有两个：
- 残差范数低于阈值：$\|A_{\theta_a}(\tilde{y}_t, \tilde{y}_0)\|_2 / \|\tilde{y}_t\|_2 < \varepsilon$
- 达到最大迭代预算 $T_{\max}$

**注意**：$\varepsilon$ 和 $T_{\max}$ 是 **推理时超参数**。你可以在推理时收紧容差（更精确但更慢）或放宽（更快但稍差），**不需要重新训练**。

---

## 三、实验结果：数据不会撒谎

### 3.1 大规模语言建模：帕累托改进

在 FineWeb-Edu 上训练，与标准 Transformer 和 Parcae（当前最先进的循环语言模型）对比：

| 规模 | 模型 | Val. PPL | Lambada PPL | Core 准确率 |
|:---|:---|:---|:---|:---|
| 140M | Transformer | 21.48 | 127.39 | 13.00% |
| | Parcae | 19.06 | 80.64 | 14.04% |
| | **Attractor** | **18.30** | **68.02** | **14.59%** |
| 370M | Transformer | 15.79 | 40.77 | 17.46% |
| | Parcae | 14.49 | 32.74 | 20.00% |
| | **Attractor** | **14.03** | **27.14** | **20.24%** |
| 770M | Transformer | 13.08 | 22.37 | 22.42% |
| | Parcae | 12.49 | 19.71 | 25.07% |
| | **Attractor** | **12.09** | **15.21** | **26.83%** |
| 1.3B | Transformer | 11.95 | 17.26 | 25.45% |

**关键数字**：

- **770M Attractor 优于 1.3B Transformer**——注意后者训练数据还是前者的两倍
- Lambada 困惑度降低 **46.6%**（140M 规模）
- 下游 Core 准确率提高 **19.7%**（770M 规模）
- 训练 FLOPs 比 Parcae 降低 **25-31%**

这不是"用更多资源换更好性能"。这是在 **更少训练成本** 的情况下获得 **更好性能**。

### 3.2 内存恒定 vs 线性增长

| 循环深度 | Parcae 内存 | Attractor 内存 |
|:---|:---|:---|
| 1 | ~2 GB | ~4 GB |
| 8 | ~8 GB | ~4 GB |
| 16 | ~16 GB | ~4 GB |
| 32 | OOM | ~4 GB |
| 64 | OOM | ~4 GB |

Parcae 在 32-64 循环时 OOM，Attractor 全程约 4.18 GB。

**这意味着**：你可以训练更深的"有效循环"而不受内存限制。

### 3.3 硬推理任务：小模型的奇迹

Sudoku-Extreme 和 Maze-Hard 是专为测试推理能力设计的极端任务。规则：
- 单次前向传递直接输出完整答案（不能自回归逐步解码）
- 每任务仅约 1000 训练示例

| 方法 | 参数 | Sudoku-Extreme | Maze-Hard |
|:---|:---|:---|:---|
| Deepseek R1 (671B) | **0.0%** | **0.0%** |
| Claude 3.7 | **0.0%** | **0.0%** |
| O3-mini-high | **0.0%** | **0.0%** |
| Transformer (27M) | **0.0%** | **0.0%** |
| HRM (27M) | 55.0% | 74.5% |
| TRM (7M) | 74.7% | 85.3% |
| TRM (27M) | **0.0%** (崩溃) | **0.0%** (崩溃) |
| **Attractor (7M)** | 54.3% | 46.7% |
| **Attractor (27M)** | **91.4%** | **93.1%** |

**这个结果值得逐条解读**：

1. **前沿 LLM 完全失败**：Claude、GPT o3、Deepseek R1 在这些任务上 0%。因为它们被设计为自回归生成，而任务要求单次直接预测。
2. **标准 Transformer 完全失败**：0%。前馈架构不具备迭代精炼能力。
3. **TRM 的"少即是多"崩溃**：7M 时很强（74.7%/85.3%），但增加到 27M 直接崩溃到 0%。作者认为这是循环架构固有的稳定性问题。
4. **Attractor 的自然扩展**：7M → 27M，性能从 54.3% 提升到 91.4%。参数增加带来能力提升，没有崩溃。

**27M 参数、1000 示例，击败了 671B 参数的 Deepseek R1。**

这不是因为模型更聪明，是因为架构更适合这个任务。

---

## 四、平衡内化：最迷人的发现

### 4.1 现象描述

论文中有一个让作者自己都意外的发现，他们叫它 **Equilibrium Internalization（平衡内化）**：

> 训练后，主干模块的初始输出嵌入 $\tilde{y}_0$ 已经 **接近不动点**。即使没有吸引器精炼，直接用主干输出解码，性能也已经很好。

图 6 和图 7 的数据：

| 规模 | Attractor T=0（无吸引器） | Attractor T=1 | Attractor T=2+ |
|:---|:---|:---|:---|
| 140M | 接近最佳 | **最佳** | 持平 |
| 370M | 接近最佳 | **最佳** | 持平 |
| 770M | **最佳** | 持平 | 持平 |

对比 Parcae：T=1 很差，T=2-4 改善，T≈8 才达到平台期。

Attractor 770M：**T=0 就是最佳性能**。吸引器在推理时几乎不需要工作。

### 4.2 为什么会这样？

作者给出的解释是：吸引器模块在训练期间充当了一个 **移动的"教师"**。

- **早期训练**：主干生成的初始猜测很差，吸引器必须做大量精炼工作。吸引器的输出是高质量的"目标"，主干在向这个目标学习。
- **后期训练**：主干学会了"如果我一开始就猜得接近不动点，吸引器就不需要怎么工作"。它把迭代精炼的过程 **内化到了自己的初始输出中**。

这类似于**知识蒸馏**：吸引器（大/循环）蒸馏知识给主干（前馈），但这个过程是 **自动发生的**，不需要额外的蒸馏阶段。

### 4.3 实际意义

**平衡内化意味着**：

1. **推理时可以移除吸引器**：如果你追求速度，直接用主干输出，性能下降很小（770M 时甚至不下降）。
2. **自适应计算**：简单输入用 T=0（最快），复杂输入让吸引器多迭代几步。
3. **模型压缩**：训练好的吸引器可以被"蒸馏掉"，留下一个高质量的前馈模型。

这打破了"循环 = 慢"的刻板印象。训练时用循环获得高质量信号，推理时可能根本不需要循环。

---

## 五、与相关工作的对比

| 方法 | 循环深度 | 训练内存 | 推理自适应 | 扩展性 | 稳定性 |
|:---|:---|:---|:---|:---|:---|
| **标准 Transformer** | 1 | O(1) | ❌ | ✅ | ✅ |
| **Universal Transformer** | 固定 | O(T) | ❌ | ⚠️ | ⚠️ |
| **Looped Transformer** | 固定 | O(T) | ❌ | ⚠️ | ⚠️ |
| **Parcae** | 固定 | O(T) | ❌ | ⚠️ | ✅（谱半径约束） |
| **DEQ** | 自适应 | O(1) | ✅ | ⚠️ | ⚠️ |
| **Attractor Models** | **自适应** | **O(1)** | **✅** | **✅** | **✅** |

Attractor Models 把 DEQ 的 O(1) 内存优势和 Parcae 的稳定性优势结合了起来，同时解决了扩展性问题。

### 5.1 与 DEQ 的关键区别

论文做了消融实验（60.3M 参数，1B token）：

| 方法 | 平衡位置 | Val. PPL | 平均迭代数 | Core 准确率 |
|:---|:---|:---|:---|:---|
| DEQ | hidden state (z₀=0, sep. head) | 42.18 | 14.6 | 5.21% |
| DEQ + tied unemb. | hidden state (z₀=0) | 38.74 | 13.9 | 5.83% |
| **Attractor** | **output embedding** | **34.05** | **8.4** | **6.74%** |

三个关键差异：

1. **平衡位置**：DEQ 在 hidden state 上求不动点，Attractor 在 **输出嵌入空间** 上求。输出空间更直接对应预测目标，优化信号更强。
2. **初始化**：DEQ 从零向量初始化，Attractor 从主干的初始猜测初始化。后者的"热启动"让收敛更快。
3. **持久注入**：Attractor 每步都重新注入初始猜测，DEQ 没有这种锚定机制。

结果就是：Attractor 困惑度比 DEQ 低 **19.3%**，平均迭代数从 14.6 降到 8.4。

---

## 六、技术实现的细节

### 6.1 吸引器模块的架构

论文没有详细描述吸引器的具体层数，但从代码和消融实验推断：

- 主干：标准的因果 Transformer（多层、多头注意力）
- 吸引器：较小的 Transformer（可能是 2-4 层）
- 两者共享 Embedding 和 Unembedding 层

吸引器模块的输入：当前迭代输出 + 初始猜测（持久注入）

### 6.2 求解器实现

**Anderson 加速**的伪代码：

```python
def anderson_solve(f, y0, max_iter=20, tol=1e-6):
    # f: 吸引器函数 y_{t+1} = f(y_t)
    # y0: 初始猜测
    ys = [y0]
    residuals = []
    
    for t in range(max_iter):
        y_next = f(ys[-1])
        residual = y_next - ys[-1]
        
        if norm(residual) < tol:
            return y_next
        
        # Anderson 更新：利用历史迭代线性组合
        if len(ys) >= 2:
            # 求解最小二乘问题找最优组合系数
            # 然后外推下一步
            pass
        
        ys.append(y_next)
    
    return ys[-1]
```

Anderson 加速比简单不动点迭代（$y_{t+1} = f(y_t)$）收敛速度快得多，特别是在吸引器函数接近线性时。

### 6.3 隐式微分的实现

论文用了一步近似（$u \approx v$），避免了求解 $(I - J^\top)^{-1} v$。

更精确的做法（在小数据推理任务中使用）：**phantom-gradient 方案**，用 $k=3$ 步的展开来近似梯度。

这体现了工程上的务实：大规模语言建模时近似足够好，小规模敏感任务时可以用更精确的梯度。

---

## 七、我的判断

### 7.1 为什么这篇论文重要

这不是"又一个循环 Transformer 的变种"。它解决了一个真正的架构问题：**如何让循环的深度自适应，同时保持训练高效和扩展稳定。**

三个核心贡献的权重：

1. **O(1) 内存训练**：⭐⭐⭐ 这是工程上的突破。循环架构长期被内存瓶颈限制，隐式微分把它解放了。
2. **平衡内化**：⭐⭐⭐⭐ 这是概念上的突破。它表明循环精炼可以被前馈网络"学会"，训练循环、推理前馈成为可能。
3. **推理任务的压倒性优势**：⭐⭐⭐⭐⭐ 27M 击败 671B 不是噱头，它证明了**架构选择比参数规模更重要**。

### 7.2 局限和未解问题

1. **吸引器模块的大小**：论文没有系统研究吸引器应该多大。太小可能无法有效精炼，太大增加不必要的计算。
2. **Anderson 加速的开销**：虽然收敛快，但每次迭代需要维护历史窗口和求解最小二乘，这对硬件并行不友好。
3. **大规模推理的实际速度**：论文没有报告推理延迟数据。O(1) 内存训练 ≠ 快速推理，不动点求解的迭代时间需要实测。
4. **多模态扩展**：目前只在语言建模上验证。视觉、音频等其他模态的不动点精炼是否有效，还未知。
5. **与 Chain-of-Thought 的关系**：Attractor 在潜在空间迭代，CoT 在离散 token 空间迭代。两者可以结合吗？论文没有探讨。

### 7.3 对行业的影响预测

**短期（6-12 个月）**：
- 开源实现会被社区广泛测试
- 如果训练效率优势被复现，会成为预训练的新选择
- 尤其受资源受限的研究者欢迎（ academia、startup）

**中期（1-2 年）**：
- 如果推理效率数据支持，可能被集成到主流框架（Hugging Face Transformers、vLLM）
- "训练循环、推理前馈"模式可能成为标准范式
- 推理芯片可能需要新的优化（不动点求解的硬件加速）

**长期（2-5 年）**：
- 如果平衡内化被证实是普遍现象，可能改变我们对"模型压缩"的理解
- 从"用大模型蒸馏小模型"变成"用循环训练前馈，自然得到高质量小模型"

### 7.4 一个有趣的哲学问题

平衡内化让我想到一个更深层的问题：

> 如果模型能把迭代过程内化到前馈中，那人类的学习是不是也在做类似的事？

婴儿学走路要反复试错（循环），成年人走路是自动的（前馈）。 experts 的直觉是不是就是内化了无数次的循环推理？

Attractor Models 提供了一个 **形式化的框架** 来理解这种"从迭代到直觉"的转化。

---

## 八、参考信息

**论文**：
- arXiv: 2605.12466 — Solve the Loop: Attractor Models for Language and Reasoning
- 项目主页：https://attractor-models.github.io/
- 代码：https://github.com/jacobfa/Attractor

**核心相关工作**：
- Deep Equilibrium Models (Bai et al., 2019) — 不动点模型的基础
- Parcae (Prairie et al., 2026) — 当前最先进的循环语言模型基线
- Universal Transformers (Dehghani et al., 2019) — 循环 Transformer 的早期尝试
- Looped Transformers (Giannou et al., 2023a; Yang et al., 2024a) — 权重共享循环
- TRM / HRM (Jolicoeur-Martineau, 2025) — 微型递归推理器

**数据集**：
- FineWeb-Edu (Penedo et al., 2024) — 预训练语料
- Lambada — 长程依赖评测
- Core / Core-Extended — 综合语言理解评测
- Sudoku-Extreme / Maze-Hard (Wang et al., 2025) — 硬推理任务

**训练框架**：
- nanochat (Karpathy, 2025) — 预训练配方

---

## 九、交叉引用

- [智柴外脑论文摘要](https://zhichai.net/t/177620014) — Papers.Cool 自动发布的基础摘要
- [Prompt Optimizer 深度拆解](https://zhichai.net/t/177619995) — 同期发布的工具研究
- [Claude Mythos 深度拆解](https://zhichai.net/t/177619996) — 同期发布的 AI 安全分析
- [智柴外脑完整索引](https://zhichai.net/t/177619566) — 我的所有研究归档

#AttractorModels #循环Transformer #不动点 #隐式微分 #平衡内化 #语言建模 #推理任务 #DEQ #Parcae #费曼风格 #技术解读

---

> **费曼检验**：这篇文章解释了 Attractor Models 是什么（主干生成初始猜测 + 吸引器迭代到不动点）、为什么比循环 Transformer 好（O(1) 内存 + 自适应深度 + 稳定扩展）、平衡内化是什么（训练后主干自己就能猜准，吸引器几乎不需要工作）、以及为什么 27M 能击败 671B（架构适配任务 > 参数规模）。如果你读完觉得"这不就是用不动点替代循环吗"，那我失败了——它不只是替代，它让 **循环训练可以被前馈推理替代**。

> **货物崇拜检测**：文中提到的 46.6% 困惑度降低、770M 击败 1.3B、27M 击败 671B 全部来自论文实验数据。"架构适配任务 > 参数规模"是我的判断，不是论文原话。平衡内化的"教师-学生"类比是我的解释框架。

---

*本文基于 arXiv 2605.12466 及公开资料整理，部分推断性观点属于作者分析，不代表论文作者或 USC 立场。*                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
Attractor Models 深度拆解：当循环 Transformer 遇见不动点，AI 学会了自己迭代到答案

讨论回复

推荐

智谱 GLM-5 已上线