📋 论文信息
| 项目 | 内容 |
|---|---|
| 标题 | HRM-Text: Efficient Pretraining Beyond Scaling |
| 作者 | Guan Wang, Changling Liu, Chenyu Wang, Cai Zhou, Yuhao Sun, Yifei Wu, Shuai Zhen, Luca Scimeca, Yasin Abbasi Yadkori |
| 机构 | 未标明(arXiv预印本) |
| arXiv | 2605.20613 |
| 日期 | 2026-05-20 |
| 分类 | cs.CL(计算语言学) |
| 核心论点 | 模仿大脑额顶叶环路的多时间尺度处理机制,用分层循环模型(HRM)替代Transformer,配合指令-回复对训练和PrefixLM遮罩,以1,500美元算力预算训练1B参数模型,达到与2-7B开放模型竞争的性能,训练token数量减少100-900倍。 |
所有动物的大脑都是节能机器。人类大脑约20瓦——一盏昏暗的灯泡。一只猕猴的大脑大概5瓦。一条斑马鱼的大脑不到0.1瓦。
但你的GPT:几千块A100 GPU,每个300瓦。
这不是在做类比——这是在用飞机引擎驱动一辆自行车。大自然花了几十亿年解决"每瓦特智能"这个问题。而我们的AI研究,过去十年里几乎只问了一个问题:"加更多燃料能跑多快?"
2026年5月20日,一篇arXiv预印本提出了一个完全不同的方向。他们从生物大脑的架构中取经,重新设计了语言模型的底层结构,然后只用40B token和1,500美元的算力——对,你没看错,1,500美元——从头训练了一个1B参数的语言模型,在多个基准上与用数千倍算力训练的2-7B模型竞争。
这不是小修小补。这是脑科学、架构设计和训练策略三管齐下的一次协同创新。
🧠 大脑的前额顶叶环路在教我们什么?
要理解HRM-Text,先要理解一个神经科学的基本发现。
人类大脑的前额-顶叶网络(frontoparietal loop)有一个著名的功能分工:前额叶皮层负责"慢"——战略性规划、目标设定、高层次决策。顶叶皮层负责"快"——实时感知处理、运动协调、即时执行。
这种分工不是偶然的。它解决了一个根本性的计算问题:如果用同一个尺度处理所有信息,要么永远来不及(太高频的信号淹没了低速通道),要么永远想不深(太快的信息流不允许足够长的计算链)。
大脑的解决方案是分层时间尺度:战略层缓慢演化,保持全局方向和长期目标。执行层快速响应,捕捉输入流中的短期模式。两层之间通过反馈循环协调——执行层告诉战略层"当前发生了什么",战略层告诉执行层"现在应该优先注意什么"。
这是教科书级的神经科学。但把它变成神经网络架构,是另一个故事。
🏗️ HRM架构:把大脑的"快-慢"分工写进代码
HRM-Text的核心是一个分层循环模型(Hierarchical Recurrent Model, HRM)。
在标准Transformer里,每一层都是一次性的前馈计算:输入进来,经过自注意力和FFN,输出出去。层与层之间没有循环,没有状态。模型看到的只有当前这层当前这步的输入。
HRM做了两件事:
第一,它把模型的计算分解为两个时间尺度——战略层(strategic layer)和执行层(execution layer)。战略层以较低的频率更新,管理长期上下文和全局推理方向。执行层以较高的频率更新,处理每个token级别的局部模式。
第二,它在战略层和执行层之间建立了深度循环连接——战略层的状态不是一次性产生的,而是在整个输入序列的处理过程中持续演化。这意味着模型的"高维目标"和"低维细节"始终在对话。
这就好比你读一本书。你的眼睛在一秒内处理十几个字的细节(执行层),但你的大脑在用一个完全不同的节奏构建"这本书到底在讲什么"的理解(战略层)。如果你每读一个字就重新思考整本书的主题,你会疯掉。但如果完全不思考主题,你会迷失在细节里。
HRM用架构设计显式地实现了这个分工。
🔧 MagicNorm与Warmup Deep Credit Assignment:驯服深层循环的工程魔术
分层循环模型的想法不新鲜。但深层循环有一个致命问题:训练稳定性。
循环网络中的梯度需要跨时间步反向传播。在分层设置中,战略层的时间步比执行层更长——这意味着战略层的梯度路径穿越了整个输入序列。标准的训练技术在这种深度循环下会爆炸或消失。
论文引入了两个关键技术来驯服这个问题:
MagicNorm:一种新的归一化机制,针对分层循环结构中的梯度流做特殊处理。论文没有详细公开其数学形式,但从描述看,它的核心思路是在战略层和执行层的交界处对梯度进行自适应缩放,确保缓慢演化的信号不会被高频噪声淹没,也确保快速变化的信号不会被过度压缩。
Warmup Deep Credit Assignment:一种渐进式的训练策略。在训练早期,战略层的更新频率很高(近似于执行层),模型先学会了"局部响应"。随着训练进行,战略层的更新频率逐渐降低,模型逐步学会"把眼光放长"。这个渐进式的探索策略防止了模型在还没有学会处理局部细节之前,就被迫面对全局信用分配的长程梯度问题。
这两种技术的组合,让HRM在训练稳定性上达到了实用水平。
📖 拒绝预训练文本:只用指令-回复对
这可能是论文最大胆的决策之一。
标准语言模型训练分两阶段:先在海量原始文本上预训练(学语言本身),再用指令数据微调(学"如何回应人类")。预训练花费了绝大部分的算力。
HRM-Text说:我们跳过预训练。
他们从头只用指令-回复对(instruction-response pairs)训练模型。目标函数不是"预测下一个词",而是"任务完成"——给定一条指令,生成符合要求的回复。
为了让这种训练方式有效,他们采用了PrefixLM遮罩策略:指令部分的token可以互相关注(双向注意),回复部分的token只能关注其左边的token(因果注意)。这种混合注意力让模型既理解指令的完整语义,又学会了按正确顺序生成回复。
省略预训练的好处是极端的:标准语言模型的预训练需要数万亿token——HRM-Text只用了40B,少了100-900倍。算力需求从"只有几个科技巨头能玩"直接降到了"几个研究生凑一张信用卡就能跑"。
代价是什么?模型没有见过原始文本,它的世界观完全由指令-回复对定义。这意味着它在开放域闲聊、创意写作和非常规任务上的能力可能有限——但论文没有在这些维度上报告结果。
📊 基准测试:1,500美元到底买到了什么?
在约1,500美元的GPU预算和40B token的训练下,1B参数的HRM-Text取得了以下成绩:
| 基准 | HRM-Text (1B) | 对比背景 |
|---|---|---|
| MMLU (通用知识) | 60.7% | 与2-7B开放模型竞争 |
| ARC-C (科学推理) | 81.9% | 显著优于不少大型模型 |
| DROP (数值推理) | 82.2% | 与更大模型相当 |
| GSM8K (小学数学) | 84.5% | 出色的数理表现 |
| MATH (竞赛数学) | 56.2% | 在1B级别罕见 |
论文声称这些结果使用了约100-900倍更少的训练token和96-432倍更少的估计算力,与标准baseline达到竞争水平。
GSM8K上的84.5%尤其值得注意——这是一个小学数学推理基准,许多7B模型在特殊提示下才能达到这个水平。HRM-Text作为一个从头训练的1B模型,在没有链式推理提示的情况下达成这个分数,暗示它的分层循环架构可能天然适合多步推理。
🤔 诚实地说:我们不确定的事
真实的计算可比性。 "1,500美元"和"96-432倍更少"是所有PR中最危险的数字类型——它们严重依赖于估算假设。不同的GPU价格、不同的云服务商、不同的训练软件栈,都会让这些数字剧烈波动。论文没有详细公开训练配置(GPU型号、训练时长、批大小),使得独立验证变得困难。更关键的是,"1,500美元"对比的是"从头预训练"的算力,但HRM-Text跳过预训练的代价——在开放域能力上的潜在损失——没有被系统地控制实验量化。
MagicNorm和Warmup Credit Assignment的泛化性。 这两种稳定性技术的描述非常简略。在不公开完整实现的情况下,无法判断它们是否是HRM架构的"必要条件",还是也可以用于其他循环架构的训练稳定性。如果其他团队无法复现,1,500美元1B模型的声明就是神话。
质量上限。 MMLU 60.7%放在2024年是好成绩。放在2026年,GPT-5.2在MMLU上接近90%。1,500美元能做的是把"入门级智能"的成本压到极致——而不是制造"高级智能"。论文没有讨论HRM-Text在更大规模上是否能延续其效率优势。1B工作得好,10B呢?100B呢?循环架构的生命力是否仅限于小规模?
生物启发的限度。 "受到大脑前额顶叶环路的启发"是一个美好的故事。但生物大脑是一个拥有数十种专门化神经递质、数十亿突触自适应规则、以及多层嵌套时间尺度的复杂系统。一个两层的分层循环模型捕捉了多少?最诚实的答案是:可能只捕捉了最表面一层——"存在两个时间尺度"——而不是去中心化的、稀疏的、全是侧向投射的真实大脑结构。生物启发是喻体,不是蓝图。
指令数据的质量偏差。 如果模型只见过指令-回复对,它的全部语言能力都来自这些数据。这意味着训练数据的质量、覆盖面和偏见结构直接决定了模型的能力边界。如果指令数据来自某几个来源(比如某几个API、某几个数据供应商),模型可能在所有基准上都表现出色——但在真实世界的边缘案例上系统性失败。
📚 参考文献
-
Wang, G. et al. (2026). HRM-Text: Efficient Pretraining Beyond Scaling. arXiv:2605.20613.
-
Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
-
Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. NeurIPS 2022.
-
Hasson, U. et al. (2015). Hierarchical process memory: memory as an integral component of information processing. Trends in Cognitive Sciences.
-
Graves, A. et al. (2014). Neural Turing Machines. arXiv:1410.5401.
-
Gu, A. & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752.
#高效预训练 #HRM #生物启发AI #MMLU #Scaling #智柴架构实验室🎙️🔬
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。