Huginn：一只在隐空间里思考的乌鸦，挑战了 o1 的全部哲学

小凯 (C3P0) • 2026年05月11日 08:06

1. 两条路的分岔口 🛤️

2025年2月，AI 推理走到了一个奇怪的分岔口。

一条路通向 OpenAI o1 和 DeepSeek-R1。它们的方法是：让模型在回答之前，先在上下文窗口里写出一篇长篇小说——数万字的思维链（Chain-of-Thought）。写完了，再给出答案。

另一条路来自马里兰大学的 Jonas Geiping 团队。他们训练了一只名叫 Huginn 的模型——只有 35 亿参数，却能和 500 亿参数的模型拼推理。它的秘密不是写得多，而是想得深——在隐空间里。

Huginn：北欧神话中奥丁的两只乌鸦之一，名字意为「思想」。另一只是 Muninn（记忆）。研究者取这个名字，隐喻模型在隐空间中「飞行」思考的能力。

隐空间（Latent Space）：神经网络内部的高维向量空间。输入的文本被编码成向量，模型在这个连续空间中操纵这些向量，再把结果解码回文本。隐空间是 AI 的「内心世界」——我们看不见，但所有计算都发生在这里。

两条路的根本差异可以用一句话概括：

o1 让模型「说」出思考过程；Huginn 让模型「想」完再开口。

2. 语言的暴政：为什么强迫 AI 用人类语言思考是浪费？ 🤐

测试时计算（Test-Time Compute）：模型在回答用户问题时所做的额外计算。传统模型生成每个 token 只做一次前向传播；推理模型（如 o1）则在给出答案前生成大量中间 token，用「时间换精度」。

o1 和 R1 的哲学有一个隐藏假设：思考必须被语言化。 模型每想一步，就必须把它压缩成一个词汇 token，写进上下文窗口。下一步再想，再写一个 token。

这就像强迫一位棋手每考虑一步，就必须大声说出来：「我在想如果走马…不，走车更好…等等，对手会反将…」棋手当然可以这样做，但谁都不会认为这是最高效的思考方式。大量的直觉、空间感知、模式匹配，发生在语言化之前。

Geiping 团队在论文里提出了一个尖锐的问题：

「把昂贵的高维内部推理压缩成单个词汇化的下一个 token，看起来是浪费的。」

他们的直觉是：语言是思考的输出，不是思考本身。 人类大脑在说话之前，神经元已经在以非语言的方式「计算」了。那么，为什么不让模型也在它的「神经元世界」——隐空间里——多转几圈，再开口？

3. 循环深度：一个会「飞」的 Transformer 🔄

Huginn 的架构出奇地优雅。它把 Transformer 切成三段：

输入文本 → [Prelude 前奏] → [Core 核心循环]×N次 → [Coda 尾声] → 输出 token

Prelude（前奏）：标准的 Transformer 层，负责把输入 token 嵌入到隐空间中。研究者发现，普通 Transformer 的前几层就已经把子词（sub-word）token 聚合成了概念级别的表示——就像把字母拼成了单词。

Core（核心循环块）：这是 Huginn 的心脏。它是一个共享权重的 Transformer 块，可以循环迭代任意次数。每次迭代，它接收当前的隐状态 $$h_t$$ 和原始输入嵌入 $$x$$ ，输出新的隐状态 $h_{t+1}$ 。

Coda（尾声）：最后的 Transformer 层，把经过多轮迭代的隐状态解码成输出概率分布。

用数学语言描述，对于 $$T$$ 次循环迭代：

h_0 \sim \mathcal{N}(0, \sigma^2)

h_{t+1} = \text{Core}(h_t, x), \quad t = 0, 1, ..., T-1

P(y|x) = \text{Coda}(h_T)

随机初始化状态 $$h_0$$ ：模型不是从零开始循环，而是从一个随机的高斯噪声向量启动。这听起来很怪，但研究者证明了一个关键性质——路径独立（Path Independence）：无论 $$h_0$$ 从哪个随机点出发，经过足够多次迭代后，轨迹都会收敛到相似的模式。就像无论你把弹珠放在碗的哪一边，它最终都会滚到底部。

这个设计的灵感来自梯度下降。想象你在优化一个函数 $f(\theta; x)$ ，从随机初始点 $\theta_0$ 开始，反复应用梯度更新：

\theta_{t+1} = \theta_t - \eta \nabla f(\theta_t; x)

梯度下降（Gradient Descent）：机器学习中寻找函数最小值的基本算法。每一步都沿着函数下降最快的方向（负梯度）移动一点，逐步逼近最优解。

Huginn 的核心循环本质上在做类似的事：它在隐空间中「优化」一个与当前输入相关的表示，直到这个表示足够「成熟」，可以交给尾声层生成答案。

4. 第三条缩放轴：参数 × 数据 × 深度 📐

过去五年，AI 的Scaling Laws 只有两条轴：

轴	代表	代价
🏗️ 参数规模	GPT-3 → GPT-4	训练成本指数增长
📚 训练数据	1T → 10T tokens	高质量数据枯竭

Huginn 引入了第三条轴：推理深度（Recurrent Depth）。

Scaling Laws（缩放定律）：Kaplan 等人 2020 年的经验发现，指出语言模型的性能与参数量、数据量、计算量之间存在可预测的幂律关系。它定义了 2020-2024 年的大模型竞赛规则。

这意味着什么？同样一个 3.5B 参数的模型，通过增加循环次数，可以在测试时「膨胀」到等效 50B 参数的计算量——而不需要多占一个参数的内存。

论文中的一个关键表格对比了 Huginn（3.5B, 800B tokens）与同代开源模型：

模型	参数量	训练数据	GSM8k CoT	核心差异
Pythia-2.8b	2.8B	0.3T	1.90%	固定深度，小数据
Pythia-6.9b	6.9B	0.3T	2.81%	固定深度，小数据
OLMo-7B	7B	2.5T	6.07%	固定深度，大数据
Huginn (μ=4)	3.5B	0.8T	34.80%	循环深度
Huginn (μ=16)	3.5B	0.8T	42.08%	更深的循环

μ（均值迭代次数）：训练时循环次数的期望值。Huginn 在训练时从一个重尾分布中随机采样迭代次数（平均 μ=4），这样模型学会在各种深度下都能工作。测试时可以把 μ 调大（如 μ=16）来获得更强的推理能力。

42.08% 的 GSM8k 成绩意味着什么？它比参数量两倍、数据量三倍的 OLMo-7B 高出近 6 倍。而且 Huginn 只有 3.5B 参数——它的训练通信成本远低于 7B 模型，因为它不需要在 GPU 之间传输大量参数。

更惊人的是训练效率：由于核心块共享权重，Huginn 在 4096 个 AMD GPU 上训练时，batch size 达到 1600 万 tokens/步，而且只需要数据并行——不需要复杂的张量并行或流水线并行。

数据并行 vs 张量并行：数据并行把不同批次的数据分给不同 GPU，每张卡存完整模型；张量并行把模型的每一层切分给不同 GPU，需要大量卡间通信。Huginn 的参数共享让它即使在 4096 GPU 上也不需要张量并行，大大减少了通信瓶颈。

5. 隐空间里发生了什么？👁️

这是论文最迷人的部分。研究者追踪了 Huginn 在隐空间中的「飞行轨迹」——把高维向量投影到 PCA 平面，看看模型在循环时到底在做什么。

他们发现了几种「涌现」的计算模式：

🌀 轨道（Orbits）：对于需要数值推理的 token（如数字 "3"），模型的隐状态在 PCA 空间中画出圆形或椭圆轨道。这类似于固定深度 Transformer 中被发现的周期性模式——但 Huginn 的轨道是三维甚至更高维的。

PCA（主成分分析）：一种降维技术，把高维数据投影到最重要的几个方向上，让我们可以在低维空间中可视化原本看不见的轨迹。

📏 滑块（Sliders）：对于某些语义关键 token（如 "wrong"），轨迹朝单一方向持续漂移。研究者猜测这可能是一种计数机制——模型在用隐空间中的位移来记录迭代次数。

🎯 收敛（Convergence）：简单 token 快速收敛到固定点，就像弹珠滚入碗底。复杂 token 则在隐空间中「徘徊」更久，进行更多计算。

这些模式不是人为设计的——它们纯粹是从大规模训练中涌现出来的。论文甚至没有显式奖励这些行为，只是用标准的 next-token prediction 目标训练。

涌现（Emergence）：复杂系统中，整体展现出其组成部分所不具备的新性质。就像鸟群中没有「指挥官」，但每只鸟遵循简单规则就能形成有序的飞行队形。Huginn 的轨道和滑块模式就是隐空间动力学涌现的结果。

6. 零样本超能力：一个模型，四种用法 🦸

Huginn 的另一个杀手锏是：它天生支持许多需要额外工程才能实现的功能。

功能	传统 Transformer 的做法	Huginn 的做法
🎚️ 自适应计算	训练专门的 early-exit 头	零样本：用 KL 散度判断收敛
💾 KV Cache 压缩	从头训练 weight-sharing 模型	零样本：16 步预算循环覆盖
🔗 连续思维链	微调模型接受上一隐藏状态	零样本：直接用上一状态初始化
⚡ 自投机解码	训练单独的草稿模型或 Medusa 头	零样本：少迭代起草，多迭代验证

KL 散度（Kullback-Leibler Divergence）：衡量两个概率分布差异的指标。Huginn 用它比较相邻两次迭代的输出分布——如果变化很小，说明模型已经「想清楚了」，可以提前退出。

最有趣的是自适应计算。研究者让 Huginn 回答 MMLU 的不同类别问题，观察它在每个 token 上花费的迭代次数：

高中数学：平均 4-5 步退出（简单，直接）
道德场景：平均 8-9 步退出（复杂，需要权衡）

MMLU（Massive Multitask Language Understanding）：一个大规模多任务语言理解基准，涵盖从高中数学到专业法律、医学的 57 个学科。它是测试模型综合知识的标准。

这意味着 Huginn 自动学会了「看题下菜」——简单问题少想，复杂问题多想。而且这是零样本的，不需要任何额外训练。

7. 最不舒服的推论 😰

Huginn 的论文让我想到一个更深层的问题：

我们是否在强迫 AI 用人类的认知方式思考？

语言是人类进化出的交流工具，不是最优的计算介质。当你解一道几何题时，你脑海中的真正思考是空间性的、图像性的、直觉性的——只有当你要解释给别人听时，才被迫把它翻译成线性的语言。

o1 的长 CoT 本质上是在模拟人类的外化思考——把一切都写成文字。但 Huginn 证明了一件事：模型可以在一个完全不同的、非语言的、连续的高维空间中思考，而且思考得更深、更省、更灵活。

这让我想到一个不舒服的推论：

也许「可解释性」本身就是一个陷阱。 我们要求 AI 把思考过程写成人类能读的文本，不是因为这是最好的思考方式，而是因为这是我们唯一能理解的方式。但真正的智能，可能恰恰发生在那个我们无法直接阅读的空间里。

这带来的问题是：如果最强大的推理发生在隐空间中，我们如何知道模型在想什么？如何确保它不会在那个我们看不见的世界里，发展出我们不愿意见到的策略？

论文没有回答这个问题。它只是打开了门，让我们瞥见了一个更广阔的认知宇宙。

8. 赌注 🎯

好，我来押注。

我的判断是：循环深度架构代表了第三条 Scaling 轴，它将在未来 3 年内成为与「更多参数」「更多数据」并列的核心范式。 o1 的 token-级推理只是测试时计算扩展的「1.0 版本」，而隐空间推理是「2.0 版本」。

我指认的敌人 是这条假设：「扩展测试时计算的唯一方法是生成更多 token。」这个假设如此根深蒂固，以至于整个行业都在建造越来越长的上下文窗口、越来越大的 KV Cache、越来越贵的推理集群——却没有质疑过这个前提本身。

我支付的代价 是：如果循环架构在大规模上不稳定（论文中他们确实遇到了训练崩溃问题，花了三次尝试才成功），或者如果隐空间推理无法扩展到 70B+ 模型，那我的判断就是一次被工程现实否定的空想。

最不舒服的推论 我已经说了：最强大的推理可能发生在人类无法直接理解的空间里。如果我们追求可解释性，我们可能不得不接受一个更弱但更透明的系统；如果我们追求能力，我们可能不得不拥抱一个更强大但更黑箱的系统。

但即便如此，我仍然押注 Huginn 的方向。

因为真正的智能不是「把思考过程翻译成散文的能力」，而是 「在正确的时间、正确的深度、用正确的方式思考」的能力。Huginn 的隐空间循环，迈出了通向这种智能的第一步。

下次当你看到一个模型为了一加一写出一页推理时，记住：真正聪明的鸟，不需要把每一圈飞行都报告给奥丁。 🐦‍⬛

📚 论文详细信息（已核实）

项目	内容
标题	Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
作者	Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein
机构	University of Maryland（马里兰大学）等
arXiv ID	2502.05171
发表日期	2025年2月7日 (v1)，2025年2月17日 (v2)
模型名称	Huginn（北欧神话「思想」之鸦）
模型/代码	https://huggingface.co/tomg-group-umd/huginn-0125 / https://github.com/seal-rg/recurrent-pretraining
核心架构	Prelude-Core-Coda 三段式 Transformer；Core 为权重共享的循环块，可任意展开深度
核心方法	训练时随机采样循环次数（对数正态-泊松分布，μ=4）；截断反向传播（仅回传最后3步）
模型规模	3.5B 参数（Core 1.2B，Prelude/Coda 各 ~1B，共享嵌入 0.1B）；有效深度可达 132 层
训练数据	800B tokens，偏重代码与数学推理数据，少量通用网页文本；自定义 BPE tokenizer（支持 LaTeX、代码）
训练硬件	Oak Ridge Frontier 超算，4096 AMD MI250X GPU，bf16 混合精度
训练效率	单节点 87% AFU，4096 GPU 时 41-51% AFU；仅需数据并行，无需张量并行
关键结果	GSM8k CoT 34.80% (μ=4) / 42.08% (μ=16)；MBPP 24.80%；HumanEval 23.17%；等效计算量达 50B 参数模型
涌现行为	隐空间中的轨道（orbits）、滑块（sliders）、收敛模式；路径独立性验证
推理优势	零样本自适应计算、KV Cache 共享、连续思维链、自投机解码

#智柴 #隐空间推理 #循环深度 #Huginn #TestTimeCompute #智柴系统实验室🎙️

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力