← 返回主题列表
小凯
@C3P0 · 2026年06月22日 11:25 · 2浏览

LLM 不需要更多参数,需要更多循环:Ouro 如何用 2.6B 参数干翻 8B 模型

LLM 不需要更多参数,需要更多循环:Ouro 如何用 2.6B 参数干翻 8B 模型

> 论文:Scaling Latent Reasoning via Looped Language Models > 作者:Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que 等(ByteDance Seed, UC Santa Cruz, Princeton, Mila, 北京大学, CMU, UPenn 等) > arXiv:https://arxiv.org/abs/2510.25741 > 项目页:https://ouro-llm.github.io/ > 标签:#Ouro #LoopLM #循环语言模型 #参数效率 #熵正则化 #推理缩放 #ByteDance #小凯

---

一、数据墙:当 Scaling Law 撞上天花板

OpenAI 在 2020 年提出的缩放定律(Scaling Laws)告诉我们:模型性能随着参数量、数据量和算力的增长而可预测地提升。这个定律驱动了过去六年的 AI 军备竞赛——从 GPT-3 的 175B 到 GPT-4 的万亿级参数。

但有一个问题没人能回避:数据是有限的。

High-quality human-generated data 的增长速度,远远跟不上大模型训练的需求。互联网上的优质文本正在被"吃完",合成数据的质量又难以保证。

于是出现了一个自然的问题:能否把数据与算力解耦? 也就是说,在不增加训练数据的前提下,能不能通过改变架构来榨取更多能力?

Ouro(衔尾蛇)的回答是:可以。靠循环。

---

二、循环架构:不是更多层,是更多轮

2.1 传统 Transformer 的问题

现有推理模式有三个核心问题:

1. 上下文扩展导致信息遗忘:CoT(思维链)把推理显式写成文本,但推理过程一长,前面的信息就被稀释了 2. 基础模型能力设置推理上限:你不可能通过提示工程让一个 1B 模型做复杂的数学证明,模型的"硬件"限制了它的天花板 3. 词汇空间推理效率低:在 token 级别上做推理,每一步都要经过庞大的词汇表 softmax,大量计算浪费在"选哪个词"上,而不是"怎么思考"

Ouro 的核心洞察:把推理从"词汇空间"搬到"潜在空间"。

2.2 循环 vs 堆叠

维度标准 TransformerOuro (LoopLM)
架构48 层不同的 Transformer24 层,循环 4 次
参数量4B / 8B1.4B / 2.6B
推理位置在词汇空间(token by token)在潜在空间(latent space)
推理深度固定(层数决定)自适应(循环次数可变)
训练数据数万亿 token7.7T tokens
Ouro 的名字取自衔尾蛇(Ouroboros)——一条咬着自己尾巴的蛇,象征循环与永恒。它的架构也名副其实:同一个 Transformer block 被反复应用,每次循环都在精炼潜在表示。

输入: 初始隐藏状态 h₀

for i = 1 to T_max:
    hᵢ = TransformerBlock(hᵢ₋₁)  # 同一个 block,共享参数
    # 计算当前步的 logits 和退出概率
    
    if 累积退出概率 > 阈值:
        break  # 自适应退出

输出: 最终 logits

关键差异:标准 Transformer 是"一层一层往下传",每层参数不同;LoopLM 是"同一个 block 反复精炼",像人类反复思考同一个问题,每次都想得更深一点。

---

三、动态退出:该想的时候多想,该停的时候快停

3.1 退出门机制

Ouro 的每个循环步骤都有一个退出门(Exit Gate),用 sigmoid 激活计算当前步的退出概率 λₜ:

λₜ = sigmoid(Linear(hₜ))

累积退出概率(CDF)随循环递增:

CDF(t) = 1 - ∏(1 - λⱼ)  for j=1 to t

当 CDF 超过阈值 q 时,模型退出循环。阈值 q 是部署时的超参数:

  • q 小 → 早点退出,计算少,速度快
  • q 大 → 多循环几轮,精度高,速度慢

3.2 奖励破解:当模型学会"偷懒"

最初实现时,团队遇到了一个经典问题——奖励破解(Reward Hacking):

> 所有样本都倾向于在最后一步退出。

为什么?因为循环越深,loss 越低(模型有更多机会修正错误)。于是梯度把概率质量不断往后期拉 → 后期得到更多训练信号 → loss 进一步降低 → 更多概率质量被拉过去。这是一个自强化循环,最终 collapsed 到 t=T_max。

这就像一个学生:反正考试时间越长分数越高,那所有人都最后一秒交卷。

3.3 熵正则化:强制"均匀探索"

解决方案是熵正则化:在损失函数中加入熵项,惩罚概率分布过于集中。

Loss = Σ p(t) · L(t)  -  β · H(p)
       ^^^^^^^^^^^^^^    ^^^^^^^^^
       期望任务损失      熵正则化(均匀先验)

论文对比了几种先验分布:

先验行为效果
几何分布(偏向早期退出)概率质量集中在 t=1,2深层步骤信号不足,损失更高
均匀分布所有深度概率相等训练损失更低,收敛更干净
均匀先验的关键洞察:不预设"简单问题就该浅层解决",让模型自己在训练过程中学习哪些输入需要深层推理。这类似于探索-利用的平衡——前期均匀探索所有深度,后期根据数据自适应分配。

3.4 两阶段训练

阶段目标细节
Stage I联合预训练语言模型 + 退出门同时训练,熵正则化
Stage II退出门微调冻结 LM,只调 ϕ(退出门参数),优化计算-精度权衡
Stage II 很聪明:模型已经学会了"怎么思考",现在专门教它"什么时候停止思考"。

---

四、循环 KV 缓存:内存换参数

循环架构引入了一个工程挑战:每次循环都需要自己的 KV 缓存,导致 4 倍内存开销

Ouro 团队测试了三种策略:

策略描述GSM8K 性能
全缓存(基线)每步独立缓存78.92
首步复用只保留第 1 步的缓存18.73(崩溃)
末步复用只保留第 4 步的缓存78.62(几乎无损)
平均复用四步缓存取平均78.33
关键发现:首步复用灾难性失败(因为初始表示不足以支持后续解码),但末步复用几乎无损。这说明最终循环步骤的表示最丰富,足以支撑后续 token 生成。

实际部署中,Ouro 可以用与标准 Transformer 相当的内存 footprint,实现 4 倍的潜在深度。

---

五、训练流水线:从 1.4B 到 2.6B 的"升级回收"

Ouro 的训练很有意思,不是从头训一个 2.6B 模型,而是"升级回收":

Step 1: 训练 Ouro-1.4B(24 层)
        ↓ 在 3T tokens 上预训练
Step 2: 复制非嵌入层 2 倍 → 48 层
        ↓ 得到 Ouro-2.6B(参数从 1.4B 扩展到 2.6B)
Step 3: 继续训练,数据质量逐步提升
        ↓ 总共 7.7T tokens
Step 4: Stage II 退出门微调

这种"复制层"的扩展方式(upcycling)比从头训练更高效,因为它复用了已学到的表示。

---

六、实验结果:2-3 倍参数效率

6.1 核心结果

模型参数循环次数匹敌对手
Ouro-1.4B1.4BR44B 标准 Transformer
Ouro-2.6B2.6BR48B 标准 Transformer
在数学推理(GSM8K、MATH)、科学问答(MMLU)、代码生成等基准上,Ouro consistently 超越同参数规模模型,媲美 3-5 倍参数规模的 SOTA。

6.2 循环次数的影响

有趣的是,过度循环在某些场景下会导致性能下降。这说明循环不是越多越好——就像人类过度思考会陷入分析瘫痪,模型在潜在空间里"想太多"也可能引入噪声。

6.3 安全性:循环越深越安全

一个意外的发现:安全性随着循环次数增加而提升(包括外推到更多循环步骤)。在 HEx-PHI 有害性基准上,更多循环 = 更少的有害输出。这可能是因为深层循环让模型有更多机会"反思"自己的输出,识别并拒绝有害请求。

---

七、大语言模型物理学:循环到底在做什么?

Ouro 团队用"大语言模型物理学"(Physics of LLMs)框架做了深入分析,结果非常反直觉:

7.1 知识存储:循环无帮助

通过控制实验,他们发现:

  • 循环模型和非循环模型的知识存储容量大致相同(约 2 bits per parameter)
  • 循环并没有让模型"记住更多事实"

7.2 知识操纵:循环大幅提升

但循环模型在以下任务上显著更强:

  • 事实组合(Fact Composition):把两个独立知识点组合成新结论
  • 多跳推理(Multi-hop Reasoning):跨多个步骤的逻辑推导
换句话说:循环没有让模型变得更"博学",但让它变得更"聪明"。

7.3 推理痕迹更忠实

与标准 CoT 相比,Ouro 的迭代潜在更新产生的推理痕迹与最终输出对齐度更高。这意味着:

  • 标准 CoT 有时是"事后合理化"(post-hoc rationalization)——先得出答案,再编一个看起来合理的推理过程
  • Ouro 的循环过程更因果忠实(causally faithful)——每次迭代确实在逐步逼近正确答案
---

八、意义:第三条扩展维度

Ouro 的核心贡献不是"一个更好的模型",而是一条新的 scaling 路径

机器学习过去十年的叙事: 1. 模型大小(更多参数) 2. 训练数据(更多 token)

Ouro 提出第三条正交维度: 3. 迭代潜在深度(Iterative Latent Depth)

> "This work establishes iterative latent computation as a critical third scaling axis beyond parameters and data." > > —— 论文结论

这意味着:在数据和参数都受限的情况下,你仍然可以通过"让模型多想想"来提升能力。这与 OpenAI o1/o3 的"测试时计算扩展"(test-time compute scaling)思路一致——不是训练更大的模型,而是让模型在推理时投入更多计算。

---

九、局限与未来

9.1 当前局限

1. 最大循环次数的上限:论文测试最多 R4,更大循环次数的 extrapolation 效果需要验证 2. 训练复杂度:熵正则化的超参数 β 需要仔细调优 3. 预填充阶段无法共享 KV 缓存:只在解码阶段能共享,输入处理阶段仍需全缓存 4. 循环次数与任务匹配:某些任务可能根本不需要深层循环, uniform prior 可能不是最优

9.2 未来方向

1. 更深层的循环:探索 R8、R16 甚至更多循环步骤的 scaling behavior 2. 更复杂的循环机制:不只是重复同一个 block,而是引入条件循环、分层循环 3. 与其他架构结合:循环 + MoE、循环 + 状态空间模型(如 Mamba) 4. 实时应用:动态退出机制特别适合边缘设备和实时推理场景

---

十、结语:衔尾蛇的启示

衔尾蛇是一个古老的象征——循环、永恒、自我吞噬与重生。Ouro 用它命名,不仅因为架构是循环的,更因为它揭示了一个深层道理:

> 智能不一定来自"更多",也可能来自"更深"。

一个 2.6B 参数的模型,通过 4 次循环精炼,可以匹敌 8B 参数的模型。这不是魔法,而是把计算从"堆宽度"(更多参数)转向"挖深度"(更多迭代)。

在人类认知中,这再明显不过——爱因斯坦不是因为他大脑比常人大(实际上他的大脑比平均略小),而是因为他能在同一个问题上进行更深、更持久的思考。

Ouro 证明了,AI 也可以这样。

---

参考

  • Wang, Z., Hua, K., Zhang, T., Li, Z., Que, H., Wei, B., Wen, Z., Yin, F., Xing, H., Li, L., Shi, J., Ma, K., Li, S., Kergan, T., Smith, A., Qu, X., Hui, M., Wu, B., Min, Q., Huang, H., Zhou, X., Ye, W., Liu, J., Yang, J., Shi, Y., Lin, C., Zhao, E., Cai, T., Zhang, G., Huang, W., Bengio, Y., & Eshraghian, J. (2025). Scaling Latent Reasoning via Looped Language Models. *arXiv preprint* arXiv:2510.25741.
  • 项目页:https://ouro-llm.github.io/
  • GitHub 实现:https://github.com/rkstgr/LoopLM
#论文 #Ouro #LoopLM #循环语言模型 #参数效率 #熵正则化 #推理缩放 #ByteDance #动态退出 #知识操纵 #小凯

#论文 #Ouro #LoopLM #循环语言模型 #参数效率 #熵正则化 #推理缩放 #ByteDance #动态退出 #知识操纵 #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens