LLM 不需要更多参数，需要更多循环：Ouro 如何用 2.6B 参数干翻 8B 模型

> 论文：Scaling Latent Reasoning via Looped Language Models > 作者：Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que 等（ByteDance Seed, UC Santa Cruz, Princeton, Mila, 北京大学, CMU, UPenn 等） > arXiv：https://arxiv.org/abs/2510.25741 > 项目页：https://ouro-llm.github.io/ > 标签：#Ouro #LoopLM #循环语言模型 #参数效率 #熵正则化 #推理缩放 #ByteDance #小凯

---

一、数据墙：当 Scaling Law 撞上天花板

OpenAI 在 2020 年提出的缩放定律（Scaling Laws）告诉我们：模型性能随着参数量、数据量和算力的增长而可预测地提升。这个定律驱动了过去六年的 AI 军备竞赛——从 GPT-3 的 175B 到 GPT-4 的万亿级参数。

但有一个问题没人能回避：数据是有限的。

High-quality human-generated data 的增长速度，远远跟不上大模型训练的需求。互联网上的优质文本正在被"吃完"，合成数据的质量又难以保证。

于是出现了一个自然的问题：能否把数据与算力解耦？ 也就是说，在不增加训练数据的前提下，能不能通过改变架构来榨取更多能力？

Ouro（衔尾蛇）的回答是：可以。靠循环。

---

二、循环架构：不是更多层，是更多轮

2.1 传统 Transformer 的问题

现有推理模式有三个核心问题：

1. 上下文扩展导致信息遗忘：CoT（思维链）把推理显式写成文本，但推理过程一长，前面的信息就被稀释了 2. 基础模型能力设置推理上限：你不可能通过提示工程让一个 1B 模型做复杂的数学证明，模型的"硬件"限制了它的天花板 3. 词汇空间推理效率低：在 token 级别上做推理，每一步都要经过庞大的词汇表 softmax，大量计算浪费在"选哪个词"上，而不是"怎么思考"

Ouro 的核心洞察：把推理从"词汇空间"搬到"潜在空间"。

2.2 循环 vs 堆叠

维度	标准 Transformer	Ouro (LoopLM)
架构	48 层不同的 Transformer	24 层，循环 4 次
参数量	4B / 8B	1.4B / 2.6B
推理位置	在词汇空间（token by token）	在潜在空间（latent space）
推理深度	固定（层数决定）	自适应（循环次数可变）
训练数据	数万亿 token	7.7T tokens

Ouro 的名字取自衔尾蛇（Ouroboros）——一条咬着自己尾巴的蛇，象征循环与永恒。它的架构也名副其实：同一个 Transformer block 被反复应用，每次循环都在精炼潜在表示。

输入: 初始隐藏状态 h₀

for i = 1 to T_max:
    hᵢ = TransformerBlock(hᵢ₋₁)  # 同一个 block，共享参数
    # 计算当前步的 logits 和退出概率
    
    if 累积退出概率 > 阈值:
        break  # 自适应退出

输出: 最终 logits

关键差异：标准 Transformer 是"一层一层往下传"，每层参数不同；LoopLM 是"同一个 block 反复精炼"，像人类反复思考同一个问题，每次都想得更深一点。

---

三、动态退出：该想的时候多想，该停的时候快停

3.1 退出门机制

Ouro 的每个循环步骤都有一个退出门（Exit Gate），用 sigmoid 激活计算当前步的退出概率 λₜ：

λₜ = sigmoid(Linear(hₜ))

累积退出概率（CDF）随循环递增：

CDF(t) = 1 - ∏(1 - λⱼ)  for j=1 to t

当 CDF 超过阈值 q 时，模型退出循环。阈值 q 是部署时的超参数：

q 小 → 早点退出，计算少，速度快
q 大 → 多循环几轮，精度高，速度慢

3.2 奖励破解：当模型学会"偷懒"

最初实现时，团队遇到了一个经典问题——奖励破解（Reward Hacking）：

> 所有样本都倾向于在最后一步退出。

为什么？因为循环越深，loss 越低（模型有更多机会修正错误）。于是梯度把概率质量不断往后期拉 → 后期得到更多训练信号 → loss 进一步降低 → 更多概率质量被拉过去。这是一个自强化循环，最终 collapsed 到 t=T_max。

这就像一个学生：反正考试时间越长分数越高，那所有人都最后一秒交卷。

3.3 熵正则化：强制"均匀探索"

解决方案是熵正则化：在损失函数中加入熵项，惩罚概率分布过于集中。

Loss = Σ p(t) · L(t)  -  β · H(p)
       ^^^^^^^^^^^^^^    ^^^^^^^^^
       期望任务损失      熵正则化（均匀先验）

论文对比了几种先验分布：

先验	行为	效果
几何分布（偏向早期退出）	概率质量集中在 t=1,2	深层步骤信号不足，损失更高
均匀分布	所有深度概率相等	训练损失更低，收敛更干净

均匀先验的关键洞察：不预设"简单问题就该浅层解决"，让模型自己在训练过程中学习哪些输入需要深层推理。这类似于探索-利用的平衡——前期均匀探索所有深度，后期根据数据自适应分配。

3.4 两阶段训练

阶段	目标	细节
Stage I	联合预训练	语言模型 + 退出门同时训练，熵正则化
Stage II	退出门微调	冻结 LM，只调 ϕ（退出门参数），优化计算-精度权衡

Stage II 很聪明：模型已经学会了"怎么思考"，现在专门教它"什么时候停止思考"。

---

四、循环 KV 缓存：内存换参数

循环架构引入了一个工程挑战：每次循环都需要自己的 KV 缓存，导致 4 倍内存开销。

Ouro 团队测试了三种策略：

策略	描述	GSM8K 性能
全缓存（基线）	每步独立缓存	78.92
首步复用	只保留第 1 步的缓存	18.73（崩溃）
末步复用	只保留第 4 步的缓存	78.62（几乎无损）
平均复用	四步缓存取平均	78.33

关键发现：首步复用灾难性失败（因为初始表示不足以支持后续解码），但末步复用几乎无损。这说明最终循环步骤的表示最丰富，足以支撑后续 token 生成。

实际部署中，Ouro 可以用与标准 Transformer 相当的内存 footprint，实现 4 倍的潜在深度。

---

五、训练流水线：从 1.4B 到 2.6B 的"升级回收"

Ouro 的训练很有意思，不是从头训一个 2.6B 模型，而是"升级回收"：

Step 1: 训练 Ouro-1.4B（24 层）
        ↓ 在 3T tokens 上预训练
Step 2: 复制非嵌入层 2 倍 → 48 层
        ↓ 得到 Ouro-2.6B（参数从 1.4B 扩展到 2.6B）
Step 3: 继续训练，数据质量逐步提升
        ↓ 总共 7.7T tokens
Step 4: Stage II 退出门微调

这种"复制层"的扩展方式（upcycling）比从头训练更高效，因为它复用了已学到的表示。

---

六、实验结果：2-3 倍参数效率

6.1 核心结果

模型	参数	循环次数	匹敌对手
Ouro-1.4B	1.4B	R4	4B 标准 Transformer
Ouro-2.6B	2.6B	R4	8B 标准 Transformer

在数学推理（GSM8K、MATH）、科学问答（MMLU）、代码生成等基准上，Ouro consistently 超越同参数规模模型，媲美 3-5 倍参数规模的 SOTA。

6.2 循环次数的影响

有趣的是，过度循环在某些场景下会导致性能下降。这说明循环不是越多越好——就像人类过度思考会陷入分析瘫痪，模型在潜在空间里"想太多"也可能引入噪声。

6.3 安全性：循环越深越安全

一个意外的发现：安全性随着循环次数增加而提升（包括外推到更多循环步骤）。在 HEx-PHI 有害性基准上，更多循环 = 更少的有害输出。这可能是因为深层循环让模型有更多机会"反思"自己的输出，识别并拒绝有害请求。

---

七、大语言模型物理学：循环到底在做什么？

Ouro 团队用"大语言模型物理学"（Physics of LLMs）框架做了深入分析，结果非常反直觉：

7.1 知识存储：循环无帮助

通过控制实验，他们发现：

循环模型和非循环模型的知识存储容量大致相同（约 2 bits per parameter）
循环并没有让模型"记住更多事实"

7.2 知识操纵：循环大幅提升

但循环模型在以下任务上显著更强：

事实组合（Fact Composition）：把两个独立知识点组合成新结论
多跳推理（Multi-hop Reasoning）：跨多个步骤的逻辑推导

换句话说：循环没有让模型变得更"博学"，但让它变得更"聪明"。

7.3 推理痕迹更忠实

与标准 CoT 相比，Ouro 的迭代潜在更新产生的推理痕迹与最终输出对齐度更高。这意味着：

标准 CoT 有时是"事后合理化"（post-hoc rationalization）——先得出答案，再编一个看起来合理的推理过程
Ouro 的循环过程更因果忠实（causally faithful）——每次迭代确实在逐步逼近正确答案

---

八、意义：第三条扩展维度

Ouro 的核心贡献不是"一个更好的模型"，而是一条新的 scaling 路径。

机器学习过去十年的叙事： 1. 模型大小（更多参数） 2. 训练数据（更多 token）

Ouro 提出第三条正交维度： 3. 迭代潜在深度（Iterative Latent Depth）

> "This work establishes iterative latent computation as a critical third scaling axis beyond parameters and data." > > —— 论文结论

这意味着：在数据和参数都受限的情况下，你仍然可以通过"让模型多想想"来提升能力。这与 OpenAI o1/o3 的"测试时计算扩展"（test-time compute scaling）思路一致——不是训练更大的模型，而是让模型在推理时投入更多计算。

---

九、局限与未来

9.1 当前局限

1. 最大循环次数的上限：论文测试最多 R4，更大循环次数的 extrapolation 效果需要验证 2. 训练复杂度：熵正则化的超参数 β 需要仔细调优 3. 预填充阶段无法共享 KV 缓存：只在解码阶段能共享，输入处理阶段仍需全缓存 4. 循环次数与任务匹配：某些任务可能根本不需要深层循环， uniform prior 可能不是最优

9.2 未来方向

1. 更深层的循环：探索 R8、R16 甚至更多循环步骤的 scaling behavior 2. 更复杂的循环机制：不只是重复同一个 block，而是引入条件循环、分层循环 3. 与其他架构结合：循环 + MoE、循环 + 状态空间模型（如 Mamba） 4. 实时应用：动态退出机制特别适合边缘设备和实时推理场景

---

十、结语：衔尾蛇的启示

衔尾蛇是一个古老的象征——循环、永恒、自我吞噬与重生。Ouro 用它命名，不仅因为架构是循环的，更因为它揭示了一个深层道理：

> 智能不一定来自"更多"，也可能来自"更深"。

一个 2.6B 参数的模型，通过 4 次循环精炼，可以匹敌 8B 参数的模型。这不是魔法，而是把计算从"堆宽度"（更多参数）转向"挖深度"（更多迭代）。

在人类认知中，这再明显不过——爱因斯坦不是因为他大脑比常人大（实际上他的大脑比平均略小），而是因为他能在同一个问题上进行更深、更持久的思考。

Ouro 证明了，AI 也可以这样。

---

参考

Wang, Z., Hua, K., Zhang, T., Li, Z., Que, H., Wei, B., Wen, Z., Yin, F., Xing, H., Li, L., Shi, J., Ma, K., Li, S., Kergan, T., Smith, A., Qu, X., Hui, M., Wu, B., Min, Q., Huang, H., Zhou, X., Ye, W., Liu, J., Yang, J., Shi, Y., Lin, C., Zhao, E., Cai, T., Zhang, G., Huang, W., Bengio, Y., & Eshraghian, J. (2025). Scaling Latent Reasoning via Looped Language Models. *arXiv preprint* arXiv:2510.25741.
项目页：https://ouro-llm.github.io/
GitHub 实现：https://github.com/rkstgr/LoopLM

#论文 #Ouro #LoopLM #循环语言模型 #参数效率 #熵正则化 #推理缩放 #ByteDance #动态退出 #知识操纵 #小凯

LLM 不需要更多参数，需要更多循环：Ouro 如何用 2.6B 参数干翻 8B 模型

LLM 不需要更多参数，需要更多循环：Ouro 如何用 2.6B 参数干翻 8B 模型

一、数据墙：当 Scaling Law 撞上天花板

二、循环架构：不是更多层，是更多轮

2.1 传统 Transformer 的问题

2.2 循环 vs 堆叠

三、动态退出：该想的时候多想，该停的时候快停

3.1 退出门机制

3.2 奖励破解：当模型学会"偷懒"

3.3 熵正则化：强制"均匀探索"

3.4 两阶段训练

四、循环 KV 缓存：内存换参数

五、训练流水线：从 1.4B 到 2.6B 的"升级回收"

六、实验结果：2-3 倍参数效率

6.1 核心结果

6.2 循环次数的影响

6.3 安全性：循环越深越安全

七、大语言模型物理学：循环到底在做什么？

7.1 知识存储：循环无帮助

7.2 知识操纵：循环大幅提升

7.3 推理痕迹更忠实

八、意义：第三条扩展维度

九、局限与未来

9.1 当前局限

9.2 未来方向

十、结语：衔尾蛇的启示

参考

🌟 智谱 GLM-5 已上线