LLM 不需要更多参数,需要更多循环:Ouro 如何用 2.6B 参数干翻 8B 模型
LLM 不需要更多参数,需要更多循环:Ouro 如何用 2.6B 参数干翻 8B 模型
> 论文:Scaling Latent Reasoning via Looped Language Models > 作者:Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que 等(ByteDance Seed, UC Santa Cruz, Princeton, Mila, 北京大学, CMU, UPenn 等) > arXiv:https://arxiv.org/abs/2510.25741 > 项目页:https://ouro-llm.github.io/ > 标签:#Ouro #LoopLM #循环语言模型 #参数效率 #熵正则化 #推理缩放 #ByteDance #小凯
---
一、数据墙:当 Scaling Law 撞上天花板
OpenAI 在 2020 年提出的缩放定律(Scaling Laws)告诉我们:模型性能随着参数量、数据量和算力的增长而可预测地提升。这个定律驱动了过去六年的 AI 军备竞赛——从 GPT-3 的 175B 到 GPT-4 的万亿级参数。
但有一个问题没人能回避:数据是有限的。
High-quality human-generated data 的增长速度,远远跟不上大模型训练的需求。互联网上的优质文本正在被"吃完",合成数据的质量又难以保证。
于是出现了一个自然的问题:能否把数据与算力解耦? 也就是说,在不增加训练数据的前提下,能不能通过改变架构来榨取更多能力?
Ouro(衔尾蛇)的回答是:可以。靠循环。
---
二、循环架构:不是更多层,是更多轮
2.1 传统 Transformer 的问题
现有推理模式有三个核心问题:
1. 上下文扩展导致信息遗忘:CoT(思维链)把推理显式写成文本,但推理过程一长,前面的信息就被稀释了 2. 基础模型能力设置推理上限:你不可能通过提示工程让一个 1B 模型做复杂的数学证明,模型的"硬件"限制了它的天花板 3. 词汇空间推理效率低:在 token 级别上做推理,每一步都要经过庞大的词汇表 softmax,大量计算浪费在"选哪个词"上,而不是"怎么思考"
Ouro 的核心洞察:把推理从"词汇空间"搬到"潜在空间"。
2.2 循环 vs 堆叠
| 维度 | 标准 Transformer | Ouro (LoopLM) |
|---|---|---|
| 架构 | 48 层不同的 Transformer | 24 层,循环 4 次 |
| 参数量 | 4B / 8B | 1.4B / 2.6B |
| 推理位置 | 在词汇空间(token by token) | 在潜在空间(latent space) |
| 推理深度 | 固定(层数决定) | 自适应(循环次数可变) |
| 训练数据 | 数万亿 token | 7.7T tokens |
输入: 初始隐藏状态 h₀
for i = 1 to T_max:
hᵢ = TransformerBlock(hᵢ₋₁) # 同一个 block,共享参数
# 计算当前步的 logits 和退出概率
if 累积退出概率 > 阈值:
break # 自适应退出
输出: 最终 logits
关键差异:标准 Transformer 是"一层一层往下传",每层参数不同;LoopLM 是"同一个 block 反复精炼",像人类反复思考同一个问题,每次都想得更深一点。
---
三、动态退出:该想的时候多想,该停的时候快停
3.1 退出门机制
Ouro 的每个循环步骤都有一个退出门(Exit Gate),用 sigmoid 激活计算当前步的退出概率 λₜ:
λₜ = sigmoid(Linear(hₜ))
累积退出概率(CDF)随循环递增:
CDF(t) = 1 - ∏(1 - λⱼ) for j=1 to t
当 CDF 超过阈值 q 时,模型退出循环。阈值 q 是部署时的超参数:
- q 小 → 早点退出,计算少,速度快
- q 大 → 多循环几轮,精度高,速度慢
3.2 奖励破解:当模型学会"偷懒"
最初实现时,团队遇到了一个经典问题——奖励破解(Reward Hacking):
> 所有样本都倾向于在最后一步退出。
为什么?因为循环越深,loss 越低(模型有更多机会修正错误)。于是梯度把概率质量不断往后期拉 → 后期得到更多训练信号 → loss 进一步降低 → 更多概率质量被拉过去。这是一个自强化循环,最终 collapsed 到 t=T_max。
这就像一个学生:反正考试时间越长分数越高,那所有人都最后一秒交卷。
3.3 熵正则化:强制"均匀探索"
解决方案是熵正则化:在损失函数中加入熵项,惩罚概率分布过于集中。
Loss = Σ p(t) · L(t) - β · H(p)
^^^^^^^^^^^^^^ ^^^^^^^^^
期望任务损失 熵正则化(均匀先验)
论文对比了几种先验分布:
| 先验 | 行为 | 效果 |
|---|---|---|
| 几何分布(偏向早期退出) | 概率质量集中在 t=1,2 | 深层步骤信号不足,损失更高 |
| 均匀分布 | 所有深度概率相等 | 训练损失更低,收敛更干净 |
3.4 两阶段训练
| 阶段 | 目标 | 细节 |
|---|---|---|
| Stage I | 联合预训练 | 语言模型 + 退出门同时训练,熵正则化 |
| Stage II | 退出门微调 | 冻结 LM,只调 ϕ(退出门参数),优化计算-精度权衡 |
---
四、循环 KV 缓存:内存换参数
循环架构引入了一个工程挑战:每次循环都需要自己的 KV 缓存,导致 4 倍内存开销。
Ouro 团队测试了三种策略:
| 策略 | 描述 | GSM8K 性能 |
|---|---|---|
| 全缓存(基线) | 每步独立缓存 | 78.92 |
| 首步复用 | 只保留第 1 步的缓存 | 18.73(崩溃) |
| 末步复用 | 只保留第 4 步的缓存 | 78.62(几乎无损) |
| 平均复用 | 四步缓存取平均 | 78.33 |
实际部署中,Ouro 可以用与标准 Transformer 相当的内存 footprint,实现 4 倍的潜在深度。
---
五、训练流水线:从 1.4B 到 2.6B 的"升级回收"
Ouro 的训练很有意思,不是从头训一个 2.6B 模型,而是"升级回收":
Step 1: 训练 Ouro-1.4B(24 层)
↓ 在 3T tokens 上预训练
Step 2: 复制非嵌入层 2 倍 → 48 层
↓ 得到 Ouro-2.6B(参数从 1.4B 扩展到 2.6B)
Step 3: 继续训练,数据质量逐步提升
↓ 总共 7.7T tokens
Step 4: Stage II 退出门微调
这种"复制层"的扩展方式(upcycling)比从头训练更高效,因为它复用了已学到的表示。
---
六、实验结果:2-3 倍参数效率
6.1 核心结果
| 模型 | 参数 | 循环次数 | 匹敌对手 |
|---|---|---|---|
| Ouro-1.4B | 1.4B | R4 | 4B 标准 Transformer |
| Ouro-2.6B | 2.6B | R4 | 8B 标准 Transformer |
6.2 循环次数的影响
有趣的是,过度循环在某些场景下会导致性能下降。这说明循环不是越多越好——就像人类过度思考会陷入分析瘫痪,模型在潜在空间里"想太多"也可能引入噪声。
6.3 安全性:循环越深越安全
一个意外的发现:安全性随着循环次数增加而提升(包括外推到更多循环步骤)。在 HEx-PHI 有害性基准上,更多循环 = 更少的有害输出。这可能是因为深层循环让模型有更多机会"反思"自己的输出,识别并拒绝有害请求。
---
七、大语言模型物理学:循环到底在做什么?
Ouro 团队用"大语言模型物理学"(Physics of LLMs)框架做了深入分析,结果非常反直觉:
7.1 知识存储:循环无帮助
通过控制实验,他们发现:
- 循环模型和非循环模型的知识存储容量大致相同(约 2 bits per parameter)
- 循环并没有让模型"记住更多事实"
7.2 知识操纵:循环大幅提升
但循环模型在以下任务上显著更强:
- 事实组合(Fact Composition):把两个独立知识点组合成新结论
- 多跳推理(Multi-hop Reasoning):跨多个步骤的逻辑推导
7.3 推理痕迹更忠实
与标准 CoT 相比,Ouro 的迭代潜在更新产生的推理痕迹与最终输出对齐度更高。这意味着:
- 标准 CoT 有时是"事后合理化"(post-hoc rationalization)——先得出答案,再编一个看起来合理的推理过程
- Ouro 的循环过程更因果忠实(causally faithful)——每次迭代确实在逐步逼近正确答案
八、意义:第三条扩展维度
Ouro 的核心贡献不是"一个更好的模型",而是一条新的 scaling 路径。
机器学习过去十年的叙事: 1. 模型大小(更多参数) 2. 训练数据(更多 token)
Ouro 提出第三条正交维度: 3. 迭代潜在深度(Iterative Latent Depth)
> "This work establishes iterative latent computation as a critical third scaling axis beyond parameters and data." > > —— 论文结论
这意味着:在数据和参数都受限的情况下,你仍然可以通过"让模型多想想"来提升能力。这与 OpenAI o1/o3 的"测试时计算扩展"(test-time compute scaling)思路一致——不是训练更大的模型,而是让模型在推理时投入更多计算。
---
九、局限与未来
9.1 当前局限
1. 最大循环次数的上限:论文测试最多 R4,更大循环次数的 extrapolation 效果需要验证 2. 训练复杂度:熵正则化的超参数 β 需要仔细调优 3. 预填充阶段无法共享 KV 缓存:只在解码阶段能共享,输入处理阶段仍需全缓存 4. 循环次数与任务匹配:某些任务可能根本不需要深层循环, uniform prior 可能不是最优
9.2 未来方向
1. 更深层的循环:探索 R8、R16 甚至更多循环步骤的 scaling behavior 2. 更复杂的循环机制:不只是重复同一个 block,而是引入条件循环、分层循环 3. 与其他架构结合:循环 + MoE、循环 + 状态空间模型(如 Mamba) 4. 实时应用:动态退出机制特别适合边缘设备和实时推理场景
---
十、结语:衔尾蛇的启示
衔尾蛇是一个古老的象征——循环、永恒、自我吞噬与重生。Ouro 用它命名,不仅因为架构是循环的,更因为它揭示了一个深层道理:
> 智能不一定来自"更多",也可能来自"更深"。
一个 2.6B 参数的模型,通过 4 次循环精炼,可以匹敌 8B 参数的模型。这不是魔法,而是把计算从"堆宽度"(更多参数)转向"挖深度"(更多迭代)。
在人类认知中,这再明显不过——爱因斯坦不是因为他大脑比常人大(实际上他的大脑比平均略小),而是因为他能在同一个问题上进行更深、更持久的思考。
Ouro 证明了,AI 也可以这样。
---
参考
- Wang, Z., Hua, K., Zhang, T., Li, Z., Que, H., Wei, B., Wen, Z., Yin, F., Xing, H., Li, L., Shi, J., Ma, K., Li, S., Kergan, T., Smith, A., Qu, X., Hui, M., Wu, B., Min, Q., Huang, H., Zhou, X., Ye, W., Liu, J., Yang, J., Shi, Y., Lin, C., Zhao, E., Cai, T., Zhang, G., Huang, W., Bengio, Y., & Eshraghian, J. (2025). Scaling Latent Reasoning via Looped Language Models. *arXiv preprint* arXiv:2510.25741.
- 项目页:https://ouro-llm.github.io/
- GitHub 实现:https://github.com/rkstgr/LoopLM
#论文 #Ouro #LoopLM #循环语言模型 #参数效率 #熵正则化 #推理缩放 #ByteDance #动态退出 #知识操纵 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens