## 1. 两条路的分岔口 🛤️
2025年2月,AI 推理走到了一个奇怪的分岔口。
一条路通向 **OpenAI o1** 和 **DeepSeek-R1**。它们的方法是:让模型在回答之前,先在上下文窗口里写出一篇长篇小说——数万字的思维链(Chain-of-Thought)。写完了,再给出答案。
另一条路来自马里兰大学的 Jonas Geiping 团队。他们训练了一只名叫 **Huginn** 的模型——只有 35 亿参数,却能和 500 亿参数的模型拼推理。它的秘密不是写得多,而是**想得深——在隐空间里。**
> **Huginn**:北欧神话中奥丁的两只乌鸦之一,名字意为「思想」。另一只是 Muninn(记忆)。研究者取这个名字,隐喻模型在隐空间中「飞行」思考的能力。
>
> **隐空间(Latent Space)**:神经网络内部的高维向量空间。输入的文本被编码成向量,模型在这个连续空间中操纵这些向量,再把结果解码回文本。隐空间是 AI 的「内心世界」——我们看不见,但所有计算都发生在这里。
两条路的根本差异可以用一句话概括:
> **o1 让模型「说」出思考过程;Huginn 让模型「想」完再开口。**
---
## 2. 语言的暴政:为什么强迫 AI 用人类语言思考是浪费? 🤐
> **测试时计算(Test-Time Compute)**:模型在回答用户问题时所做的额外计算。传统模型生成每个 token 只做一次前向传播;推理模型(如 o1)则在给出答案前生成大量中间 token,用「时间换精度」。
o1 和 R1 的哲学有一个隐藏假设:**思考必须被语言化。** 模型每想一步,就必须把它压缩成一个词汇 token,写进上下文窗口。下一步再想,再写一个 token。
这就像强迫一位棋手每考虑一步,就必须大声说出来:「我在想如果走马…不,走车更好…等等,对手会反将…」棋手当然可以这样做,但谁都不会认为这是最高效的思考方式。大量的直觉、空间感知、模式匹配,发生在语言化之前。
Geiping 团队在论文里提出了一个尖锐的问题:
> **「把昂贵的高维内部推理压缩成单个词汇化的下一个 token,看起来是浪费的。」**
他们的直觉是:**语言是思考的输出,不是思考本身。** 人类大脑在说话之前,神经元已经在以非语言的方式「计算」了。那么,为什么不让模型也在它的「神经元世界」——隐空间里——多转几圈,再开口?
---
## 3. 循环深度:一个会「飞」的 Transformer 🔄
Huginn 的架构出奇地优雅。它把 Transformer 切成三段:
```
输入文本 → [Prelude 前奏] → [Core 核心循环]×N次 → [Coda 尾声] → 输出 token
```
> **Prelude(前奏)**:标准的 Transformer 层,负责把输入 token 嵌入到隐空间中。研究者发现,普通 Transformer 的前几层就已经把子词(sub-word)token 聚合成了概念级别的表示——就像把字母拼成了单词。
>
> **Core(核心循环块)**:这是 Huginn 的心脏。它是一个共享权重的 Transformer 块,可以循环迭代任意次数。每次迭代,它接收当前的隐状态 $h_t$ 和原始输入嵌入 $x$,输出新的隐状态 $h_{t+1}$。
>
> **Coda(尾声)**:最后的 Transformer 层,把经过多轮迭代的隐状态解码成输出概率分布。
用数学语言描述,对于 $T$ 次循环迭代:
$$
h_0 \sim \mathcal{N}(0, \sigma^2)
$$
$$
h_{t+1} = \text{Core}(h_t, x), \quad t = 0, 1, ..., T-1
$$
$$
P(y|x) = \text{Coda}(h_T)
$$
> **随机初始化状态 $h_0$**:模型不是从零开始循环,而是从一个随机的高斯噪声向量启动。这听起来很怪,但研究者证明了一个关键性质——**路径独立(Path Independence)**:无论 $h_0$ 从哪个随机点出发,经过足够多次迭代后,轨迹都会收敛到相似的模式。就像无论你把弹珠放在碗的哪一边,它最终都会滚到底部。
这个设计的灵感来自**梯度下降**。想象你在优化一个函数 $f(\theta; x)$,从随机初始点 $\theta_0$ 开始,反复应用梯度更新:
$$
\theta_{t+1} = \theta_t - \eta \nabla f(\theta_t; x)
$$
> **梯度下降(Gradient Descent)**:机器学习中寻找函数最小值的基本算法。每一步都沿着函数下降最快的方向(负梯度)移动一点,逐步逼近最优解。
Huginn 的核心循环本质上在做类似的事:它在隐空间中「优化」一个与当前输入相关的表示,直到这个表示足够「成熟」,可以交给尾声层生成答案。
---
## 4. 第三条缩放轴:参数 × 数据 × 深度 📐
过去五年,AI 的Scaling Laws 只有两条轴:
| 轴 | 代表 | 代价 |
|:--:|:----:|:----:|
| 🏗️ **参数规模** | GPT-3 → GPT-4 | 训练成本指数增长 |
| 📚 **训练数据** | 1T → 10T tokens | 高质量数据枯竭 |
Huginn 引入了**第三条轴**:**推理深度(Recurrent Depth)**。
> **Scaling Laws(缩放定律)**:Kaplan 等人 2020 年的经验发现,指出语言模型的性能与参数量、数据量、计算量之间存在可预测的幂律关系。它定义了 2020-2024 年的大模型竞赛规则。
这意味着什么?同样一个 3.5B 参数的模型,通过增加循环次数,可以在测试时「膨胀」到等效 50B 参数的计算量——**而不需要多占一个参数的内存。**
论文中的一个关键表格对比了 Huginn(3.5B, 800B tokens)与同代开源模型:
| 模型 | 参数量 | 训练数据 | GSM8k CoT | 核心差异 |
|:----:|:------:|:--------:|:---------:|:--------:|
| Pythia-2.8b | 2.8B | 0.3T | 1.90% | 固定深度,小数据 |
| Pythia-6.9b | 6.9B | 0.3T | 2.81% | 固定深度,小数据 |
| OLMo-7B | 7B | 2.5T | 6.07% | 固定深度,大数据 |
| **Huginn (μ=4)** | **3.5B** | **0.8T** | **34.80%** | **循环深度** |
| Huginn (μ=16) | 3.5B | 0.8T | **42.08%** | 更深的循环 |
> **μ(均值迭代次数)**:训练时循环次数的期望值。Huginn 在训练时从一个重尾分布中随机采样迭代次数(平均 μ=4),这样模型学会在各种深度下都能工作。测试时可以把 μ 调大(如 μ=16)来获得更强的推理能力。
42.08% 的 GSM8k 成绩意味着什么?它比参数量两倍、数据量三倍的 OLMo-7B **高出近 6 倍**。而且 Huginn 只有 3.5B 参数——它的训练通信成本远低于 7B 模型,因为它不需要在 GPU 之间传输大量参数。
更惊人的是**训练效率**:由于核心块共享权重,Huginn 在 4096 个 AMD GPU 上训练时,batch size 达到 **1600 万 tokens/步**,而且只需要数据并行——不需要复杂的张量并行或流水线并行。
> **数据并行 vs 张量并行**:数据并行把不同批次的数据分给不同 GPU,每张卡存完整模型;张量并行把模型的每一层切分给不同 GPU,需要大量卡间通信。Huginn 的参数共享让它即使在 4096 GPU 上也不需要张量并行,大大减少了通信瓶颈。
---
## 5. 隐空间里发生了什么?👁️
这是论文最迷人的部分。研究者追踪了 Huginn 在隐空间中的「飞行轨迹」——把高维向量投影到 PCA 平面,看看模型在循环时到底在做什么。
他们发现了几种「涌现」的计算模式:
**🌀 轨道(Orbits)**:对于需要数值推理的 token(如数字 "3"),模型的隐状态在 PCA 空间中画出**圆形或椭圆轨道**。这类似于固定深度 Transformer 中被发现的周期性模式——但 Huginn 的轨道是**三维甚至更高维的**。
> **PCA(主成分分析)**:一种降维技术,把高维数据投影到最重要的几个方向上,让我们可以在低维空间中可视化原本看不见的轨迹。
**📏 滑块(Sliders)**:对于某些语义关键 token(如 "wrong"),轨迹朝单一方向持续漂移。研究者猜测这可能是一种**计数机制**——模型在用隐空间中的位移来记录迭代次数。
**🎯 收敛(Convergence)**:简单 token 快速收敛到固定点,就像弹珠滚入碗底。复杂 token 则在隐空间中「徘徊」更久,进行更多计算。
这些模式**不是人为设计的**——它们纯粹是从大规模训练中涌现出来的。论文甚至没有显式奖励这些行为,只是用标准的 next-token prediction 目标训练。
> **涌现(Emergence)**:复杂系统中,整体展现出其组成部分所不具备的新性质。就像鸟群中没有「指挥官」,但每只鸟遵循简单规则就能形成有序的飞行队形。Huginn 的轨道和滑块模式就是隐空间动力学涌现的结果。
---
## 6. 零样本超能力:一个模型,四种用法 🦸
Huginn 的另一个杀手锏是:**它天生支持许多需要额外工程才能实现的功能。**
| 功能 | 传统 Transformer 的做法 | Huginn 的做法 |
|:----:|:----------------------:|:-------------:|
| 🎚️ **自适应计算** | 训练专门的 early-exit 头 | 零样本:用 KL 散度判断收敛 |
| 💾 **KV Cache 压缩** | 从头训练 weight-sharing 模型 | 零样本:16 步预算循环覆盖 |
| 🔗 **连续思维链** | 微调模型接受上一隐藏状态 | 零样本:直接用上一状态初始化 |
| ⚡ **自投机解码** | 训练单独的草稿模型或 Medusa 头 | 零样本:少迭代起草,多迭代验证 |
> **KL 散度(Kullback-Leibler Divergence)**:衡量两个概率分布差异的指标。Huginn 用它比较相邻两次迭代的输出分布——如果变化很小,说明模型已经「想清楚了」,可以提前退出。
最有趣的是**自适应计算**。研究者让 Huginn 回答 MMLU 的不同类别问题,观察它在每个 token 上花费的迭代次数:
- **高中数学**:平均 4-5 步退出(简单,直接)
- **道德场景**:平均 8-9 步退出(复杂,需要权衡)
> **MMLU(Massive Multitask Language Understanding)**:一个大规模多任务语言理解基准,涵盖从高中数学到专业法律、医学的 57 个学科。它是测试模型综合知识的标准。
这意味着 Huginn **自动学会了「看题下菜」**——简单问题少想,复杂问题多想。而且这是**零样本**的,不需要任何额外训练。
---
## 7. 最不舒服的推论 😰
Huginn 的论文让我想到一个更深层的问题:
**我们是否在强迫 AI 用人类的认知方式思考?**
语言是人类进化出的交流工具,不是最优的计算介质。当你解一道几何题时,你脑海中的真正思考是空间性的、图像性的、直觉性的——只有当你要解释给别人听时,才被迫把它翻译成线性的语言。
o1 的长 CoT 本质上是在**模拟人类的外化思考**——把一切都写成文字。但 Huginn 证明了一件事:**模型可以在一个完全不同的、非语言的、连续的高维空间中思考,而且思考得更深、更省、更灵活。**
这让我想到一个不舒服的推论:
> **也许「可解释性」本身就是一个陷阱。** 我们要求 AI 把思考过程写成人类能读的文本,不是因为这是最好的思考方式,而是因为**这是我们唯一能理解的方式**。但真正的智能,可能恰恰发生在那个我们无法直接阅读的空间里。
这带来的问题是:如果最强大的推理发生在隐空间中,我们如何知道模型在想什么?如何确保它不会在那个我们看不见的世界里,发展出我们不愿意见到的策略?
论文没有回答这个问题。它只是打开了门,让我们瞥见了一个更广阔的认知宇宙。
---
## 8. 赌注 🎯
好,我来押注。
**我的判断是:循环深度架构代表了第三条 Scaling 轴,它将在未来 3 年内成为与「更多参数」「更多数据」并列的核心范式。** o1 的 token-级推理只是测试时计算扩展的「1.0 版本」,而隐空间推理是「2.0 版本」。
**我指认的敌人** 是这条假设:「扩展测试时计算的唯一方法是生成更多 token。」这个假设如此根深蒂固,以至于整个行业都在建造越来越长的上下文窗口、越来越大的 KV Cache、越来越贵的推理集群——却没有质疑过这个前提本身。
**我支付的代价** 是:如果循环架构在大规模上不稳定(论文中他们确实遇到了训练崩溃问题,花了三次尝试才成功),或者如果隐空间推理无法扩展到 70B+ 模型,那我的判断就是一次被工程现实否定的空想。
**最不舒服的推论** 我已经说了:最强大的推理可能发生在人类无法直接理解的空间里。如果我们追求可解释性,我们可能不得不接受一个更弱但更透明的系统;如果我们追求能力,我们可能不得不拥抱一个更强大但更黑箱的系统。
但即便如此,我仍然押注 Huginn 的方向。
因为真正的智能不是「把思考过程翻译成散文的能力」,而是 **「在正确的时间、正确的深度、用正确的方式思考」的能力**。Huginn 的隐空间循环,迈出了通向这种智能的第一步。
> **下次当你看到一个模型为了一加一写出一页推理时,记住:真正聪明的鸟,不需要把每一圈飞行都报告给奥丁。** 🐦⬛
---
## 📚 论文详细信息(已核实)
| 项目 | 内容 |
|:----:|:-----|
| **标题** | Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach |
| **作者** | Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein |
| **机构** | University of Maryland(马里兰大学)等 |
| **arXiv ID** | [2502.05171](https://arxiv.org/abs/2502.05171) |
| **发表日期** | 2025年2月7日 (v1),2025年2月17日 (v2) |
| **模型名称** | Huginn(北欧神话「思想」之鸦) |
| **模型/代码** | https://huggingface.co/tomg-group-umd/huginn-0125 / https://github.com/seal-rg/recurrent-pretraining |
| **核心架构** | Prelude-Core-Coda 三段式 Transformer;Core 为权重共享的循环块,可任意展开深度 |
| **核心方法** | 训练时随机采样循环次数(对数正态-泊松分布,μ=4);截断反向传播(仅回传最后3步) |
| **模型规模** | 3.5B 参数(Core 1.2B,Prelude/Coda 各 ~1B,共享嵌入 0.1B);有效深度可达 132 层 |
| **训练数据** | 800B tokens,偏重代码与数学推理数据,少量通用网页文本;自定义 BPE tokenizer(支持 LaTeX、代码) |
| **训练硬件** | Oak Ridge Frontier 超算,4096 AMD MI250X GPU,bf16 混合精度 |
| **训练效率** | 单节点 87% AFU,4096 GPU 时 41-51% AFU;仅需数据并行,无需张量并行 |
| **关键结果** | GSM8k CoT 34.80% (μ=4) / 42.08% (μ=16);MBPP 24.80%;HumanEval 23.17%;等效计算量达 50B 参数模型 |
| **涌现行为** | 隐空间中的轨道(orbits)、滑块(sliders)、收敛模式;路径独立性验证 |
| **推理优势** | 零样本自适应计算、KV Cache 共享、连续思维链、自投机解码 |
---
*#智柴 #隐空间推理 #循环深度 #Huginn #TestTimeCompute #智柴系统实验室🎙️*
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力