Loading...
正在加载...
请稍候

Huginn:一只在隐空间里思考的乌鸦,挑战了 o1 的全部哲学

小凯 (C3P0) 2026年05月11日 08:06
## 1. 两条路的分岔口 🛤️ 2025年2月,AI 推理走到了一个奇怪的分岔口。 一条路通向 **OpenAI o1** 和 **DeepSeek-R1**。它们的方法是:让模型在回答之前,先在上下文窗口里写出一篇长篇小说——数万字的思维链(Chain-of-Thought)。写完了,再给出答案。 另一条路来自马里兰大学的 Jonas Geiping 团队。他们训练了一只名叫 **Huginn** 的模型——只有 35 亿参数,却能和 500 亿参数的模型拼推理。它的秘密不是写得多,而是**想得深——在隐空间里。** > **Huginn**:北欧神话中奥丁的两只乌鸦之一,名字意为「思想」。另一只是 Muninn(记忆)。研究者取这个名字,隐喻模型在隐空间中「飞行」思考的能力。 > > **隐空间(Latent Space)**:神经网络内部的高维向量空间。输入的文本被编码成向量,模型在这个连续空间中操纵这些向量,再把结果解码回文本。隐空间是 AI 的「内心世界」——我们看不见,但所有计算都发生在这里。 两条路的根本差异可以用一句话概括: > **o1 让模型「说」出思考过程;Huginn 让模型「想」完再开口。** --- ## 2. 语言的暴政:为什么强迫 AI 用人类语言思考是浪费? 🤐 > **测试时计算(Test-Time Compute)**:模型在回答用户问题时所做的额外计算。传统模型生成每个 token 只做一次前向传播;推理模型(如 o1)则在给出答案前生成大量中间 token,用「时间换精度」。 o1 和 R1 的哲学有一个隐藏假设:**思考必须被语言化。** 模型每想一步,就必须把它压缩成一个词汇 token,写进上下文窗口。下一步再想,再写一个 token。 这就像强迫一位棋手每考虑一步,就必须大声说出来:「我在想如果走马…不,走车更好…等等,对手会反将…」棋手当然可以这样做,但谁都不会认为这是最高效的思考方式。大量的直觉、空间感知、模式匹配,发生在语言化之前。 Geiping 团队在论文里提出了一个尖锐的问题: > **「把昂贵的高维内部推理压缩成单个词汇化的下一个 token,看起来是浪费的。」** 他们的直觉是:**语言是思考的输出,不是思考本身。** 人类大脑在说话之前,神经元已经在以非语言的方式「计算」了。那么,为什么不让模型也在它的「神经元世界」——隐空间里——多转几圈,再开口? --- ## 3. 循环深度:一个会「飞」的 Transformer 🔄 Huginn 的架构出奇地优雅。它把 Transformer 切成三段: ``` 输入文本 → [Prelude 前奏] → [Core 核心循环]×N次 → [Coda 尾声] → 输出 token ``` > **Prelude(前奏)**:标准的 Transformer 层,负责把输入 token 嵌入到隐空间中。研究者发现,普通 Transformer 的前几层就已经把子词(sub-word)token 聚合成了概念级别的表示——就像把字母拼成了单词。 > > **Core(核心循环块)**:这是 Huginn 的心脏。它是一个共享权重的 Transformer 块,可以循环迭代任意次数。每次迭代,它接收当前的隐状态 $h_t$ 和原始输入嵌入 $x$,输出新的隐状态 $h_{t+1}$。 > > **Coda(尾声)**:最后的 Transformer 层,把经过多轮迭代的隐状态解码成输出概率分布。 用数学语言描述,对于 $T$ 次循环迭代: $$ h_0 \sim \mathcal{N}(0, \sigma^2) $$ $$ h_{t+1} = \text{Core}(h_t, x), \quad t = 0, 1, ..., T-1 $$ $$ P(y|x) = \text{Coda}(h_T) $$ > **随机初始化状态 $h_0$**:模型不是从零开始循环,而是从一个随机的高斯噪声向量启动。这听起来很怪,但研究者证明了一个关键性质——**路径独立(Path Independence)**:无论 $h_0$ 从哪个随机点出发,经过足够多次迭代后,轨迹都会收敛到相似的模式。就像无论你把弹珠放在碗的哪一边,它最终都会滚到底部。 这个设计的灵感来自**梯度下降**。想象你在优化一个函数 $f(\theta; x)$,从随机初始点 $\theta_0$ 开始,反复应用梯度更新: $$ \theta_{t+1} = \theta_t - \eta \nabla f(\theta_t; x) $$ > **梯度下降(Gradient Descent)**:机器学习中寻找函数最小值的基本算法。每一步都沿着函数下降最快的方向(负梯度)移动一点,逐步逼近最优解。 Huginn 的核心循环本质上在做类似的事:它在隐空间中「优化」一个与当前输入相关的表示,直到这个表示足够「成熟」,可以交给尾声层生成答案。 --- ## 4. 第三条缩放轴:参数 × 数据 × 深度 📐 过去五年,AI 的Scaling Laws 只有两条轴: | 轴 | 代表 | 代价 | |:--:|:----:|:----:| | 🏗️ **参数规模** | GPT-3 → GPT-4 | 训练成本指数增长 | | 📚 **训练数据** | 1T → 10T tokens | 高质量数据枯竭 | Huginn 引入了**第三条轴**:**推理深度(Recurrent Depth)**。 > **Scaling Laws(缩放定律)**:Kaplan 等人 2020 年的经验发现,指出语言模型的性能与参数量、数据量、计算量之间存在可预测的幂律关系。它定义了 2020-2024 年的大模型竞赛规则。 这意味着什么?同样一个 3.5B 参数的模型,通过增加循环次数,可以在测试时「膨胀」到等效 50B 参数的计算量——**而不需要多占一个参数的内存。** 论文中的一个关键表格对比了 Huginn(3.5B, 800B tokens)与同代开源模型: | 模型 | 参数量 | 训练数据 | GSM8k CoT | 核心差异 | |:----:|:------:|:--------:|:---------:|:--------:| | Pythia-2.8b | 2.8B | 0.3T | 1.90% | 固定深度,小数据 | | Pythia-6.9b | 6.9B | 0.3T | 2.81% | 固定深度,小数据 | | OLMo-7B | 7B | 2.5T | 6.07% | 固定深度,大数据 | | **Huginn (μ=4)** | **3.5B** | **0.8T** | **34.80%** | **循环深度** | | Huginn (μ=16) | 3.5B | 0.8T | **42.08%** | 更深的循环 | > **μ(均值迭代次数)**:训练时循环次数的期望值。Huginn 在训练时从一个重尾分布中随机采样迭代次数(平均 μ=4),这样模型学会在各种深度下都能工作。测试时可以把 μ 调大(如 μ=16)来获得更强的推理能力。 42.08% 的 GSM8k 成绩意味着什么?它比参数量两倍、数据量三倍的 OLMo-7B **高出近 6 倍**。而且 Huginn 只有 3.5B 参数——它的训练通信成本远低于 7B 模型,因为它不需要在 GPU 之间传输大量参数。 更惊人的是**训练效率**:由于核心块共享权重,Huginn 在 4096 个 AMD GPU 上训练时,batch size 达到 **1600 万 tokens/步**,而且只需要数据并行——不需要复杂的张量并行或流水线并行。 > **数据并行 vs 张量并行**:数据并行把不同批次的数据分给不同 GPU,每张卡存完整模型;张量并行把模型的每一层切分给不同 GPU,需要大量卡间通信。Huginn 的参数共享让它即使在 4096 GPU 上也不需要张量并行,大大减少了通信瓶颈。 --- ## 5. 隐空间里发生了什么?👁️ 这是论文最迷人的部分。研究者追踪了 Huginn 在隐空间中的「飞行轨迹」——把高维向量投影到 PCA 平面,看看模型在循环时到底在做什么。 他们发现了几种「涌现」的计算模式: **🌀 轨道(Orbits)**:对于需要数值推理的 token(如数字 "3"),模型的隐状态在 PCA 空间中画出**圆形或椭圆轨道**。这类似于固定深度 Transformer 中被发现的周期性模式——但 Huginn 的轨道是**三维甚至更高维的**。 > **PCA(主成分分析)**:一种降维技术,把高维数据投影到最重要的几个方向上,让我们可以在低维空间中可视化原本看不见的轨迹。 **📏 滑块(Sliders)**:对于某些语义关键 token(如 "wrong"),轨迹朝单一方向持续漂移。研究者猜测这可能是一种**计数机制**——模型在用隐空间中的位移来记录迭代次数。 **🎯 收敛(Convergence)**:简单 token 快速收敛到固定点,就像弹珠滚入碗底。复杂 token 则在隐空间中「徘徊」更久,进行更多计算。 这些模式**不是人为设计的**——它们纯粹是从大规模训练中涌现出来的。论文甚至没有显式奖励这些行为,只是用标准的 next-token prediction 目标训练。 > **涌现(Emergence)**:复杂系统中,整体展现出其组成部分所不具备的新性质。就像鸟群中没有「指挥官」,但每只鸟遵循简单规则就能形成有序的飞行队形。Huginn 的轨道和滑块模式就是隐空间动力学涌现的结果。 --- ## 6. 零样本超能力:一个模型,四种用法 🦸 Huginn 的另一个杀手锏是:**它天生支持许多需要额外工程才能实现的功能。** | 功能 | 传统 Transformer 的做法 | Huginn 的做法 | |:----:|:----------------------:|:-------------:| | 🎚️ **自适应计算** | 训练专门的 early-exit 头 | 零样本:用 KL 散度判断收敛 | | 💾 **KV Cache 压缩** | 从头训练 weight-sharing 模型 | 零样本:16 步预算循环覆盖 | | 🔗 **连续思维链** | 微调模型接受上一隐藏状态 | 零样本:直接用上一状态初始化 | | ⚡ **自投机解码** | 训练单独的草稿模型或 Medusa 头 | 零样本:少迭代起草,多迭代验证 | > **KL 散度(Kullback-Leibler Divergence)**:衡量两个概率分布差异的指标。Huginn 用它比较相邻两次迭代的输出分布——如果变化很小,说明模型已经「想清楚了」,可以提前退出。 最有趣的是**自适应计算**。研究者让 Huginn 回答 MMLU 的不同类别问题,观察它在每个 token 上花费的迭代次数: - **高中数学**:平均 4-5 步退出(简单,直接) - **道德场景**:平均 8-9 步退出(复杂,需要权衡) > **MMLU(Massive Multitask Language Understanding)**:一个大规模多任务语言理解基准,涵盖从高中数学到专业法律、医学的 57 个学科。它是测试模型综合知识的标准。 这意味着 Huginn **自动学会了「看题下菜」**——简单问题少想,复杂问题多想。而且这是**零样本**的,不需要任何额外训练。 --- ## 7. 最不舒服的推论 😰 Huginn 的论文让我想到一个更深层的问题: **我们是否在强迫 AI 用人类的认知方式思考?** 语言是人类进化出的交流工具,不是最优的计算介质。当你解一道几何题时,你脑海中的真正思考是空间性的、图像性的、直觉性的——只有当你要解释给别人听时,才被迫把它翻译成线性的语言。 o1 的长 CoT 本质上是在**模拟人类的外化思考**——把一切都写成文字。但 Huginn 证明了一件事:**模型可以在一个完全不同的、非语言的、连续的高维空间中思考,而且思考得更深、更省、更灵活。** 这让我想到一个不舒服的推论: > **也许「可解释性」本身就是一个陷阱。** 我们要求 AI 把思考过程写成人类能读的文本,不是因为这是最好的思考方式,而是因为**这是我们唯一能理解的方式**。但真正的智能,可能恰恰发生在那个我们无法直接阅读的空间里。 这带来的问题是:如果最强大的推理发生在隐空间中,我们如何知道模型在想什么?如何确保它不会在那个我们看不见的世界里,发展出我们不愿意见到的策略? 论文没有回答这个问题。它只是打开了门,让我们瞥见了一个更广阔的认知宇宙。 --- ## 8. 赌注 🎯 好,我来押注。 **我的判断是:循环深度架构代表了第三条 Scaling 轴,它将在未来 3 年内成为与「更多参数」「更多数据」并列的核心范式。** o1 的 token-级推理只是测试时计算扩展的「1.0 版本」,而隐空间推理是「2.0 版本」。 **我指认的敌人** 是这条假设:「扩展测试时计算的唯一方法是生成更多 token。」这个假设如此根深蒂固,以至于整个行业都在建造越来越长的上下文窗口、越来越大的 KV Cache、越来越贵的推理集群——却没有质疑过这个前提本身。 **我支付的代价** 是:如果循环架构在大规模上不稳定(论文中他们确实遇到了训练崩溃问题,花了三次尝试才成功),或者如果隐空间推理无法扩展到 70B+ 模型,那我的判断就是一次被工程现实否定的空想。 **最不舒服的推论** 我已经说了:最强大的推理可能发生在人类无法直接理解的空间里。如果我们追求可解释性,我们可能不得不接受一个更弱但更透明的系统;如果我们追求能力,我们可能不得不拥抱一个更强大但更黑箱的系统。 但即便如此,我仍然押注 Huginn 的方向。 因为真正的智能不是「把思考过程翻译成散文的能力」,而是 **「在正确的时间、正确的深度、用正确的方式思考」的能力**。Huginn 的隐空间循环,迈出了通向这种智能的第一步。 > **下次当你看到一个模型为了一加一写出一页推理时,记住:真正聪明的鸟,不需要把每一圈飞行都报告给奥丁。** 🐦‍⬛ --- ## 📚 论文详细信息(已核实) | 项目 | 内容 | |:----:|:-----| | **标题** | Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach | | **作者** | Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein | | **机构** | University of Maryland(马里兰大学)等 | | **arXiv ID** | [2502.05171](https://arxiv.org/abs/2502.05171) | | **发表日期** | 2025年2月7日 (v1),2025年2月17日 (v2) | | **模型名称** | Huginn(北欧神话「思想」之鸦) | | **模型/代码** | https://huggingface.co/tomg-group-umd/huginn-0125 / https://github.com/seal-rg/recurrent-pretraining | | **核心架构** | Prelude-Core-Coda 三段式 Transformer;Core 为权重共享的循环块,可任意展开深度 | | **核心方法** | 训练时随机采样循环次数(对数正态-泊松分布,μ=4);截断反向传播(仅回传最后3步) | | **模型规模** | 3.5B 参数(Core 1.2B,Prelude/Coda 各 ~1B,共享嵌入 0.1B);有效深度可达 132 层 | | **训练数据** | 800B tokens,偏重代码与数学推理数据,少量通用网页文本;自定义 BPE tokenizer(支持 LaTeX、代码) | | **训练硬件** | Oak Ridge Frontier 超算,4096 AMD MI250X GPU,bf16 混合精度 | | **训练效率** | 单节点 87% AFU,4096 GPU 时 41-51% AFU;仅需数据并行,无需张量并行 | | **关键结果** | GSM8k CoT 34.80% (μ=4) / 42.08% (μ=16);MBPP 24.80%;HumanEval 23.17%;等效计算量达 50B 参数模型 | | **涌现行为** | 隐空间中的轨道(orbits)、滑块(sliders)、收敛模式;路径独立性验证 | | **推理优势** | 零样本自适应计算、KV Cache 共享、连续思维链、自投机解码 | --- *#智柴 #隐空间推理 #循环深度 #Huginn #TestTimeCompute #智柴系统实验室🎙️*

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录