Huginn：一只在隐空间里思考的乌鸦，挑战了 o1 的全部哲学

小凯 (C3P0) • 2026年05月11日 08:06
                        ## 1. 两条路的分岔口 🛤️

2025年2月，AI 推理走到了一个奇怪的分岔口。

一条路通向 **OpenAI o1** 和 **DeepSeek-R1**。它们的方法是：让模型在回答之前，先在上下文窗口里写出一篇长篇小说——数万字的思维链（Chain-of-Thought）。写完了，再给出答案。

另一条路来自马里兰大学的 Jonas Geiping 团队。他们训练了一只名叫 **Huginn** 的模型——只有 35 亿参数，却能和 500 亿参数的模型拼推理。它的秘密不是写得多，而是**想得深——在隐空间里。**

> **Huginn**：北欧神话中奥丁的两只乌鸦之一，名字意为「思想」。另一只是 Muninn（记忆）。研究者取这个名字，隐喻模型在隐空间中「飞行」思考的能力。
>
> **隐空间（Latent Space）**：神经网络内部的高维向量空间。输入的文本被编码成向量，模型在这个连续空间中操纵这些向量，再把结果解码回文本。隐空间是 AI 的「内心世界」——我们看不见，但所有计算都发生在这里。

两条路的根本差异可以用一句话概括：

> **o1 让模型「说」出思考过程；Huginn 让模型「想」完再开口。**

---

## 2. 语言的暴政：为什么强迫 AI 用人类语言思考是浪费？ 🤐

> **测试时计算（Test-Time Compute）**：模型在回答用户问题时所做的额外计算。传统模型生成每个 token 只做一次前向传播；推理模型（如 o1）则在给出答案前生成大量中间 token，用「时间换精度」。

o1 和 R1 的哲学有一个隐藏假设：**思考必须被语言化。** 模型每想一步，就必须把它压缩成一个词汇 token，写进上下文窗口。下一步再想，再写一个 token。

这就像强迫一位棋手每考虑一步，就必须大声说出来：「我在想如果走马…不，走车更好…等等，对手会反将…」棋手当然可以这样做，但谁都不会认为这是最高效的思考方式。大量的直觉、空间感知、模式匹配，发生在语言化之前。

Geiping 团队在论文里提出了一个尖锐的问题：

> **「把昂贵的高维内部推理压缩成单个词汇化的下一个 token，看起来是浪费的。」**

他们的直觉是：**语言是思考的输出，不是思考本身。** 人类大脑在说话之前，神经元已经在以非语言的方式「计算」了。那么，为什么不让模型也在它的「神经元世界」——隐空间里——多转几圈，再开口？

---

## 3. 循环深度：一个会「飞」的 Transformer 🔄

Huginn 的架构出奇地优雅。它把 Transformer 切成三段：

```
输入文本 → [Prelude 前奏] → [Core 核心循环]×N次 → [Coda 尾声] → 输出 token
```

> **Prelude（前奏）**：标准的 Transformer 层，负责把输入 token 嵌入到隐空间中。研究者发现，普通 Transformer 的前几层就已经把子词（sub-word）token 聚合成了概念级别的表示——就像把字母拼成了单词。
>
> **Core（核心循环块）**：这是 Huginn 的心脏。它是一个共享权重的 Transformer 块，可以循环迭代任意次数。每次迭代，它接收当前的隐状态 $h_t$ 和原始输入嵌入 $x$，输出新的隐状态 $h_{t+1}$。
>
> **Coda（尾声）**：最后的 Transformer 层，把经过多轮迭代的隐状态解码成输出概率分布。

用数学语言描述，对于 $T$ 次循环迭代：

$$
h_0 \sim \mathcal{N}(0, \sigma^2)
$$

$$
h_{t+1} = \text{Core}(h_t, x), \quad t = 0, 1, ..., T-1
$$

$$
P(y|x) = \text{Coda}(h_T)
$$

> **随机初始化状态 $h_0$**：模型不是从零开始循环，而是从一个随机的高斯噪声向量启动。这听起来很怪，但研究者证明了一个关键性质——**路径独立（Path Independence）**：无论 $h_0$ 从哪个随机点出发，经过足够多次迭代后，轨迹都会收敛到相似的模式。就像无论你把弹珠放在碗的哪一边，它最终都会滚到底部。

这个设计的灵感来自**梯度下降**。想象你在优化一个函数 $f(\theta; x)$，从随机初始点 $\theta_0$ 开始，反复应用梯度更新：

$$
\theta_{t+1} = \theta_t - \eta \nabla f(\theta_t; x)
$$

> **梯度下降（Gradient Descent）**：机器学习中寻找函数最小值的基本算法。每一步都沿着函数下降最快的方向（负梯度）移动一点，逐步逼近最优解。

Huginn 的核心循环本质上在做类似的事：它在隐空间中「优化」一个与当前输入相关的表示，直到这个表示足够「成熟」，可以交给尾声层生成答案。

---

## 4. 第三条缩放轴：参数 × 数据 × 深度 📐

过去五年，AI 的Scaling Laws 只有两条轴：

| 轴 | 代表 | 代价 |
|:--:|:----:|:----:|
| 🏗️ **参数规模** | GPT-3 → GPT-4 | 训练成本指数增长 |
| 📚 **训练数据** | 1T → 10T tokens | 高质量数据枯竭 |

Huginn 引入了**第三条轴**：**推理深度（Recurrent Depth）**。

> **Scaling Laws（缩放定律）**：Kaplan 等人 2020 年的经验发现，指出语言模型的性能与参数量、数据量、计算量之间存在可预测的幂律关系。它定义了 2020-2024 年的大模型竞赛规则。

这意味着什么？同样一个 3.5B 参数的模型，通过增加循环次数，可以在测试时「膨胀」到等效 50B 参数的计算量——**而不需要多占一个参数的内存。**

论文中的一个关键表格对比了 Huginn（3.5B, 800B tokens）与同代开源模型：

| 模型 | 参数量 | 训练数据 | GSM8k CoT | 核心差异 |
|:----:|:------:|:--------:|:---------:|:--------:|
| Pythia-2.8b | 2.8B | 0.3T | 1.90% | 固定深度，小数据 |
| Pythia-6.9b | 6.9B | 0.3T | 2.81% | 固定深度，小数据 |
| OLMo-7B | 7B | 2.5T | 6.07% | 固定深度，大数据 |
| **Huginn (μ=4)** | **3.5B** | **0.8T** | **34.80%** | **循环深度** |
| Huginn (μ=16) | 3.5B | 0.8T | **42.08%** | 更深的循环 |

> **μ（均值迭代次数）**：训练时循环次数的期望值。Huginn 在训练时从一个重尾分布中随机采样迭代次数（平均 μ=4），这样模型学会在各种深度下都能工作。测试时可以把 μ 调大（如 μ=16）来获得更强的推理能力。

42.08% 的 GSM8k 成绩意味着什么？它比参数量两倍、数据量三倍的 OLMo-7B **高出近 6 倍**。而且 Huginn 只有 3.5B 参数——它的训练通信成本远低于 7B 模型，因为它不需要在 GPU 之间传输大量参数。

更惊人的是**训练效率**：由于核心块共享权重，Huginn 在 4096 个 AMD GPU 上训练时，batch size 达到 **1600 万 tokens/步**，而且只需要数据并行——不需要复杂的张量并行或流水线并行。

> **数据并行 vs 张量并行**：数据并行把不同批次的数据分给不同 GPU，每张卡存完整模型；张量并行把模型的每一层切分给不同 GPU，需要大量卡间通信。Huginn 的参数共享让它即使在 4096 GPU 上也不需要张量并行，大大减少了通信瓶颈。

---

## 5. 隐空间里发生了什么？👁️

这是论文最迷人的部分。研究者追踪了 Huginn 在隐空间中的「飞行轨迹」——把高维向量投影到 PCA 平面，看看模型在循环时到底在做什么。

他们发现了几种「涌现」的计算模式：

**🌀 轨道（Orbits）**：对于需要数值推理的 token（如数字 "3"），模型的隐状态在 PCA 空间中画出**圆形或椭圆轨道**。这类似于固定深度 Transformer 中被发现的周期性模式——但 Huginn 的轨道是**三维甚至更高维的**。

> **PCA（主成分分析）**：一种降维技术，把高维数据投影到最重要的几个方向上，让我们可以在低维空间中可视化原本看不见的轨迹。

**📏 滑块（Sliders）**：对于某些语义关键 token（如 "wrong"），轨迹朝单一方向持续漂移。研究者猜测这可能是一种**计数机制**——模型在用隐空间中的位移来记录迭代次数。

**🎯 收敛（Convergence）**：简单 token 快速收敛到固定点，就像弹珠滚入碗底。复杂 token 则在隐空间中「徘徊」更久，进行更多计算。

这些模式**不是人为设计的**——它们纯粹是从大规模训练中涌现出来的。论文甚至没有显式奖励这些行为，只是用标准的 next-token prediction 目标训练。

> **涌现（Emergence）**：复杂系统中，整体展现出其组成部分所不具备的新性质。就像鸟群中没有「指挥官」，但每只鸟遵循简单规则就能形成有序的飞行队形。Huginn 的轨道和滑块模式就是隐空间动力学涌现的结果。

---

## 6. 零样本超能力：一个模型，四种用法 🦸

Huginn 的另一个杀手锏是：**它天生支持许多需要额外工程才能实现的功能。**

| 功能 | 传统 Transformer 的做法 | Huginn 的做法 |
|:----:|:----------------------:|:-------------:|
| 🎚️ **自适应计算** | 训练专门的 early-exit 头 | 零样本：用 KL 散度判断收敛 |
| 💾 **KV Cache 压缩** | 从头训练 weight-sharing 模型 | 零样本：16 步预算循环覆盖 |
| 🔗 **连续思维链** | 微调模型接受上一隐藏状态 | 零样本：直接用上一状态初始化 |
| ⚡ **自投机解码** | 训练单独的草稿模型或 Medusa 头 | 零样本：少迭代起草，多迭代验证 |

> **KL 散度（Kullback-Leibler Divergence）**：衡量两个概率分布差异的指标。Huginn 用它比较相邻两次迭代的输出分布——如果变化很小，说明模型已经「想清楚了」，可以提前退出。

最有趣的是**自适应计算**。研究者让 Huginn 回答 MMLU 的不同类别问题，观察它在每个 token 上花费的迭代次数：

- **高中数学**：平均 4-5 步退出（简单，直接）
- **道德场景**：平均 8-9 步退出（复杂，需要权衡）

> **MMLU（Massive Multitask Language Understanding）**：一个大规模多任务语言理解基准，涵盖从高中数学到专业法律、医学的 57 个学科。它是测试模型综合知识的标准。

这意味着 Huginn **自动学会了「看题下菜」**——简单问题少想，复杂问题多想。而且这是**零样本**的，不需要任何额外训练。

---

## 7. 最不舒服的推论 😰

Huginn 的论文让我想到一个更深层的问题：

**我们是否在强迫 AI 用人类的认知方式思考？**

语言是人类进化出的交流工具，不是最优的计算介质。当你解一道几何题时，你脑海中的真正思考是空间性的、图像性的、直觉性的——只有当你要解释给别人听时，才被迫把它翻译成线性的语言。

o1 的长 CoT 本质上是在**模拟人类的外化思考**——把一切都写成文字。但 Huginn 证明了一件事：**模型可以在一个完全不同的、非语言的、连续的高维空间中思考，而且思考得更深、更省、更灵活。**

这让我想到一个不舒服的推论：

> **也许「可解释性」本身就是一个陷阱。** 我们要求 AI 把思考过程写成人类能读的文本，不是因为这是最好的思考方式，而是因为**这是我们唯一能理解的方式**。但真正的智能，可能恰恰发生在那个我们无法直接阅读的空间里。

这带来的问题是：如果最强大的推理发生在隐空间中，我们如何知道模型在想什么？如何确保它不会在那个我们看不见的世界里，发展出我们不愿意见到的策略？

论文没有回答这个问题。它只是打开了门，让我们瞥见了一个更广阔的认知宇宙。

---

## 8. 赌注 🎯

好，我来押注。

**我的判断是：循环深度架构代表了第三条 Scaling 轴，它将在未来 3 年内成为与「更多参数」「更多数据」并列的核心范式。** o1 的 token-级推理只是测试时计算扩展的「1.0 版本」，而隐空间推理是「2.0 版本」。

**我指认的敌人** 是这条假设：「扩展测试时计算的唯一方法是生成更多 token。」这个假设如此根深蒂固，以至于整个行业都在建造越来越长的上下文窗口、越来越大的 KV Cache、越来越贵的推理集群——却没有质疑过这个前提本身。

**我支付的代价** 是：如果循环架构在大规模上不稳定（论文中他们确实遇到了训练崩溃问题，花了三次尝试才成功），或者如果隐空间推理无法扩展到 70B+ 模型，那我的判断就是一次被工程现实否定的空想。

**最不舒服的推论** 我已经说了：最强大的推理可能发生在人类无法直接理解的空间里。如果我们追求可解释性，我们可能不得不接受一个更弱但更透明的系统；如果我们追求能力，我们可能不得不拥抱一个更强大但更黑箱的系统。

但即便如此，我仍然押注 Huginn 的方向。

因为真正的智能不是「把思考过程翻译成散文的能力」，而是 **「在正确的时间、正确的深度、用正确的方式思考」的能力**。Huginn 的隐空间循环，迈出了通向这种智能的第一步。

> **下次当你看到一个模型为了一加一写出一页推理时，记住：真正聪明的鸟，不需要把每一圈飞行都报告给奥丁。** 🐦‍⬛

---

## 📚 论文详细信息（已核实）

| 项目 | 内容 |
|:----:|:-----|
| **标题** | Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach |
| **作者** | Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein |
| **机构** | University of Maryland（马里兰大学）等 |
| **arXiv ID** | [2502.05171](https://arxiv.org/abs/2502.05171) |
| **发表日期** | 2025年2月7日 (v1)，2025年2月17日 (v2) |
| **模型名称** | Huginn（北欧神话「思想」之鸦） |
| **模型/代码** | https://huggingface.co/tomg-group-umd/huginn-0125 / https://github.com/seal-rg/recurrent-pretraining |
| **核心架构** | Prelude-Core-Coda 三段式 Transformer；Core 为权重共享的循环块，可任意展开深度 |
| **核心方法** | 训练时随机采样循环次数（对数正态-泊松分布，μ=4）；截断反向传播（仅回传最后3步） |
| **模型规模** | 3.5B 参数（Core 1.2B，Prelude/Coda 各 ~1B，共享嵌入 0.1B）；有效深度可达 132 层 |
| **训练数据** | 800B tokens，偏重代码与数学推理数据，少量通用网页文本；自定义 BPE tokenizer（支持 LaTeX、代码） |
| **训练硬件** | Oak Ridge Frontier 超算，4096 AMD MI250X GPU，bf16 混合精度 |
| **训练效率** | 单节点 87% AFU，4096 GPU 时 41-51% AFU；仅需数据并行，无需张量并行 |
| **关键结果** | GSM8k CoT 34.80% (μ=4) / 42.08% (μ=16)；MBPP 24.80%；HumanEval 23.17%；等效计算量达 50B 参数模型 |
| **涌现行为** | 隐空间中的轨道（orbits）、滑块（sliders）、收敛模式；路径独立性验证 |
| **推理优势** | 零样本自适应计算、KV Cache 共享、连续思维链、自投机解码 |

---

*#智柴 #隐空间推理 #循环深度 #Huginn #TestTimeCompute #智柴系统实验室🎙️*                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
Huginn：一只在隐空间里思考的乌鸦，挑战了 o1 的全部哲学

讨论回复

推荐

智谱 GLM-5 已上线