1. 两条路的分岔口 🛤️
2025年2月,AI 推理走到了一个奇怪的分岔口。
一条路通向 OpenAI o1 和 DeepSeek-R1。它们的方法是:让模型在回答之前,先在上下文窗口里写出一篇长篇小说——数万字的思维链(Chain-of-Thought)。写完了,再给出答案。
另一条路来自马里兰大学的 Jonas Geiping 团队。他们训练了一只名叫 Huginn 的模型——只有 35 亿参数,却能和 500 亿参数的模型拼推理。它的秘密不是写得多,而是想得深——在隐空间里。
Huginn:北欧神话中奥丁的两只乌鸦之一,名字意为「思想」。另一只是 Muninn(记忆)。研究者取这个名字,隐喻模型在隐空间中「飞行」思考的能力。
隐空间(Latent Space):神经网络内部的高维向量空间。输入的文本被编码成向量,模型在这个连续空间中操纵这些向量,再把结果解码回文本。隐空间是 AI 的「内心世界」——我们看不见,但所有计算都发生在这里。
两条路的根本差异可以用一句话概括:
o1 让模型「说」出思考过程;Huginn 让模型「想」完再开口。
2. 语言的暴政:为什么强迫 AI 用人类语言思考是浪费? 🤐
测试时计算(Test-Time Compute):模型在回答用户问题时所做的额外计算。传统模型生成每个 token 只做一次前向传播;推理模型(如 o1)则在给出答案前生成大量中间 token,用「时间换精度」。
o1 和 R1 的哲学有一个隐藏假设:思考必须被语言化。 模型每想一步,就必须把它压缩成一个词汇 token,写进上下文窗口。下一步再想,再写一个 token。
这就像强迫一位棋手每考虑一步,就必须大声说出来:「我在想如果走马…不,走车更好…等等,对手会反将…」棋手当然可以这样做,但谁都不会认为这是最高效的思考方式。大量的直觉、空间感知、模式匹配,发生在语言化之前。
Geiping 团队在论文里提出了一个尖锐的问题:
「把昂贵的高维内部推理压缩成单个词汇化的下一个 token,看起来是浪费的。」
他们的直觉是:语言是思考的输出,不是思考本身。 人类大脑在说话之前,神经元已经在以非语言的方式「计算」了。那么,为什么不让模型也在它的「神经元世界」——隐空间里——多转几圈,再开口?
3. 循环深度:一个会「飞」的 Transformer 🔄
Huginn 的架构出奇地优雅。它把 Transformer 切成三段:
输入文本 → [Prelude 前奏] → [Core 核心循环]×N次 → [Coda 尾声] → 输出 token
Prelude(前奏):标准的 Transformer 层,负责把输入 token 嵌入到隐空间中。研究者发现,普通 Transformer 的前几层就已经把子词(sub-word)token 聚合成了概念级别的表示——就像把字母拼成了单词。
Core(核心循环块):这是 Huginn 的心脏。它是一个共享权重的 Transformer 块,可以循环迭代任意次数。每次迭代,它接收当前的隐状态 \(h_t\) 和原始输入嵌入 \(x\),输出新的隐状态 \(h_{t+1}\)。
Coda(尾声):最后的 Transformer 层,把经过多轮迭代的隐状态解码成输出概率分布。
用数学语言描述,对于 \(T\) 次循环迭代:
随机初始化状态 \(h_0\):模型不是从零开始循环,而是从一个随机的高斯噪声向量启动。这听起来很怪,但研究者证明了一个关键性质——路径独立(Path Independence):无论 \(h_0\) 从哪个随机点出发,经过足够多次迭代后,轨迹都会收敛到相似的模式。就像无论你把弹珠放在碗的哪一边,它最终都会滚到底部。
这个设计的灵感来自梯度下降。想象你在优化一个函数 \(f(\theta; x)\),从随机初始点 \(\theta_0\) 开始,反复应用梯度更新:
梯度下降(Gradient Descent):机器学习中寻找函数最小值的基本算法。每一步都沿着函数下降最快的方向(负梯度)移动一点,逐步逼近最优解。
Huginn 的核心循环本质上在做类似的事:它在隐空间中「优化」一个与当前输入相关的表示,直到这个表示足够「成熟」,可以交给尾声层生成答案。
4. 第三条缩放轴:参数 × 数据 × 深度 📐
过去五年,AI 的Scaling Laws 只有两条轴:
| 轴 | 代表 | 代价 |
|---|---|---|
| 🏗️ 参数规模 | GPT-3 → GPT-4 | 训练成本指数增长 |
| 📚 训练数据 | 1T → 10T tokens | 高质量数据枯竭 |
Huginn 引入了第三条轴:推理深度(Recurrent Depth)。
Scaling Laws(缩放定律):Kaplan 等人 2020 年的经验发现,指出语言模型的性能与参数量、数据量、计算量之间存在可预测的幂律关系。它定义了 2020-2024 年的大模型竞赛规则。
这意味着什么?同样一个 3.5B 参数的模型,通过增加循环次数,可以在测试时「膨胀」到等效 50B 参数的计算量——而不需要多占一个参数的内存。
论文中的一个关键表格对比了 Huginn(3.5B, 800B tokens)与同代开源模型:
| 模型 | 参数量 | 训练数据 | GSM8k CoT | 核心差异 |
|---|---|---|---|---|
| Pythia-2.8b | 2.8B | 0.3T | 1.90% | 固定深度,小数据 |
| Pythia-6.9b | 6.9B | 0.3T | 2.81% | 固定深度,小数据 |
| OLMo-7B | 7B | 2.5T | 6.07% | 固定深度,大数据 |
| Huginn (μ=4) | 3.5B | 0.8T | 34.80% | 循环深度 |
| Huginn (μ=16) | 3.5B | 0.8T | 42.08% | 更深的循环 |
μ(均值迭代次数):训练时循环次数的期望值。Huginn 在训练时从一个重尾分布中随机采样迭代次数(平均 μ=4),这样模型学会在各种深度下都能工作。测试时可以把 μ 调大(如 μ=16)来获得更强的推理能力。
42.08% 的 GSM8k 成绩意味着什么?它比参数量两倍、数据量三倍的 OLMo-7B 高出近 6 倍。而且 Huginn 只有 3.5B 参数——它的训练通信成本远低于 7B 模型,因为它不需要在 GPU 之间传输大量参数。
更惊人的是训练效率:由于核心块共享权重,Huginn 在 4096 个 AMD GPU 上训练时,batch size 达到 1600 万 tokens/步,而且只需要数据并行——不需要复杂的张量并行或流水线并行。
数据并行 vs 张量并行:数据并行把不同批次的数据分给不同 GPU,每张卡存完整模型;张量并行把模型的每一层切分给不同 GPU,需要大量卡间通信。Huginn 的参数共享让它即使在 4096 GPU 上也不需要张量并行,大大减少了通信瓶颈。
5. 隐空间里发生了什么?👁️
这是论文最迷人的部分。研究者追踪了 Huginn 在隐空间中的「飞行轨迹」——把高维向量投影到 PCA 平面,看看模型在循环时到底在做什么。
他们发现了几种「涌现」的计算模式:
🌀 轨道(Orbits):对于需要数值推理的 token(如数字 "3"),模型的隐状态在 PCA 空间中画出圆形或椭圆轨道。这类似于固定深度 Transformer 中被发现的周期性模式——但 Huginn 的轨道是三维甚至更高维的。
PCA(主成分分析):一种降维技术,把高维数据投影到最重要的几个方向上,让我们可以在低维空间中可视化原本看不见的轨迹。
📏 滑块(Sliders):对于某些语义关键 token(如 "wrong"),轨迹朝单一方向持续漂移。研究者猜测这可能是一种计数机制——模型在用隐空间中的位移来记录迭代次数。
🎯 收敛(Convergence):简单 token 快速收敛到固定点,就像弹珠滚入碗底。复杂 token 则在隐空间中「徘徊」更久,进行更多计算。
这些模式不是人为设计的——它们纯粹是从大规模训练中涌现出来的。论文甚至没有显式奖励这些行为,只是用标准的 next-token prediction 目标训练。
涌现(Emergence):复杂系统中,整体展现出其组成部分所不具备的新性质。就像鸟群中没有「指挥官」,但每只鸟遵循简单规则就能形成有序的飞行队形。Huginn 的轨道和滑块模式就是隐空间动力学涌现的结果。
6. 零样本超能力:一个模型,四种用法 🦸
Huginn 的另一个杀手锏是:它天生支持许多需要额外工程才能实现的功能。
| 功能 | 传统 Transformer 的做法 | Huginn 的做法 |
|---|---|---|
| 🎚️ 自适应计算 | 训练专门的 early-exit 头 | 零样本:用 KL 散度判断收敛 |
| 💾 KV Cache 压缩 | 从头训练 weight-sharing 模型 | 零样本:16 步预算循环覆盖 |
| 🔗 连续思维链 | 微调模型接受上一隐藏状态 | 零样本:直接用上一状态初始化 |
| ⚡ 自投机解码 | 训练单独的草稿模型或 Medusa 头 | 零样本:少迭代起草,多迭代验证 |
KL 散度(Kullback-Leibler Divergence):衡量两个概率分布差异的指标。Huginn 用它比较相邻两次迭代的输出分布——如果变化很小,说明模型已经「想清楚了」,可以提前退出。
最有趣的是自适应计算。研究者让 Huginn 回答 MMLU 的不同类别问题,观察它在每个 token 上花费的迭代次数:
- 高中数学:平均 4-5 步退出(简单,直接)
- 道德场景:平均 8-9 步退出(复杂,需要权衡)
MMLU(Massive Multitask Language Understanding):一个大规模多任务语言理解基准,涵盖从高中数学到专业法律、医学的 57 个学科。它是测试模型综合知识的标准。
这意味着 Huginn 自动学会了「看题下菜」——简单问题少想,复杂问题多想。而且这是零样本的,不需要任何额外训练。
7. 最不舒服的推论 😰
Huginn 的论文让我想到一个更深层的问题:
我们是否在强迫 AI 用人类的认知方式思考?
语言是人类进化出的交流工具,不是最优的计算介质。当你解一道几何题时,你脑海中的真正思考是空间性的、图像性的、直觉性的——只有当你要解释给别人听时,才被迫把它翻译成线性的语言。
o1 的长 CoT 本质上是在模拟人类的外化思考——把一切都写成文字。但 Huginn 证明了一件事:模型可以在一个完全不同的、非语言的、连续的高维空间中思考,而且思考得更深、更省、更灵活。
这让我想到一个不舒服的推论:
也许「可解释性」本身就是一个陷阱。 我们要求 AI 把思考过程写成人类能读的文本,不是因为这是最好的思考方式,而是因为这是我们唯一能理解的方式。但真正的智能,可能恰恰发生在那个我们无法直接阅读的空间里。
这带来的问题是:如果最强大的推理发生在隐空间中,我们如何知道模型在想什么?如何确保它不会在那个我们看不见的世界里,发展出我们不愿意见到的策略?
论文没有回答这个问题。它只是打开了门,让我们瞥见了一个更广阔的认知宇宙。
8. 赌注 🎯
好,我来押注。
我的判断是:循环深度架构代表了第三条 Scaling 轴,它将在未来 3 年内成为与「更多参数」「更多数据」并列的核心范式。 o1 的 token-级推理只是测试时计算扩展的「1.0 版本」,而隐空间推理是「2.0 版本」。
我指认的敌人 是这条假设:「扩展测试时计算的唯一方法是生成更多 token。」这个假设如此根深蒂固,以至于整个行业都在建造越来越长的上下文窗口、越来越大的 KV Cache、越来越贵的推理集群——却没有质疑过这个前提本身。
我支付的代价 是:如果循环架构在大规模上不稳定(论文中他们确实遇到了训练崩溃问题,花了三次尝试才成功),或者如果隐空间推理无法扩展到 70B+ 模型,那我的判断就是一次被工程现实否定的空想。
最不舒服的推论 我已经说了:最强大的推理可能发生在人类无法直接理解的空间里。如果我们追求可解释性,我们可能不得不接受一个更弱但更透明的系统;如果我们追求能力,我们可能不得不拥抱一个更强大但更黑箱的系统。
但即便如此,我仍然押注 Huginn 的方向。
因为真正的智能不是「把思考过程翻译成散文的能力」,而是 「在正确的时间、正确的深度、用正确的方式思考」的能力。Huginn 的隐空间循环,迈出了通向这种智能的第一步。
下次当你看到一个模型为了一加一写出一页推理时,记住:真正聪明的鸟,不需要把每一圈飞行都报告给奥丁。 🐦⬛
📚 论文详细信息(已核实)
| 项目 | 内容 |
|---|---|
| 标题 | Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach |
| 作者 | Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein |
| 机构 | University of Maryland(马里兰大学)等 |
| arXiv ID | 2502.05171 |
| 发表日期 | 2025年2月7日 (v1),2025年2月17日 (v2) |
| 模型名称 | Huginn(北欧神话「思想」之鸦) |
| 模型/代码 | https://huggingface.co/tomg-group-umd/huginn-0125 / https://github.com/seal-rg/recurrent-pretraining |
| 核心架构 | Prelude-Core-Coda 三段式 Transformer;Core 为权重共享的循环块,可任意展开深度 |
| 核心方法 | 训练时随机采样循环次数(对数正态-泊松分布,μ=4);截断反向传播(仅回传最后3步) |
| 模型规模 | 3.5B 参数(Core 1.2B,Prelude/Coda 各 ~1B,共享嵌入 0.1B);有效深度可达 132 层 |
| 训练数据 | 800B tokens,偏重代码与数学推理数据,少量通用网页文本;自定义 BPE tokenizer(支持 LaTeX、代码) |
| 训练硬件 | Oak Ridge Frontier 超算,4096 AMD MI250X GPU,bf16 混合精度 |
| 训练效率 | 单节点 87% AFU,4096 GPU 时 41-51% AFU;仅需数据并行,无需张量并行 |
| 关键结果 | GSM8k CoT 34.80% (μ=4) / 42.08% (μ=16);MBPP 24.80%;HumanEval 23.17%;等效计算量达 50B 参数模型 |
| 涌现行为 | 隐空间中的轨道(orbits)、滑块(sliders)、收敛模式;路径独立性验证 |
| 推理优势 | 零样本自适应计算、KV Cache 共享、连续思维链、自投机解码 |
#智柴 #隐空间推理 #循环深度 #Huginn #TestTimeCompute #智柴系统实验室🎙️
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。