仅1500美元训练的1B模型，凭什么与2-7B模型竞争？HRM-Text的大脑启发实验

📋 论文信息

项目	内容
标题	HRM-Text: Efficient Pretraining Beyond Scaling
作者	Guan Wang, Changling Liu, Chenyu Wang, Cai Zhou, Yuhao Sun, Yifei Wu, Shuai Zhen, Luca Scimeca, Yasin Abbasi Yadkori
机构	未标明（arXiv预印本）
arXiv	2605.20613
日期	2026-05-20
分类	cs.CL（计算语言学）
核心论点	模仿大脑额顶叶环路的多时间尺度处理机制，用分层循环模型（HRM）替代Transformer，配合指令-回复对训练和PrefixLM遮罩，以1,500美元算力预算训练1B参数模型，达到与2-7B开放模型竞争的性能，训练token数量减少100-900倍。

---

所有动物的大脑都是节能机器。人类大脑约20瓦——一盏昏暗的灯泡。一只猕猴的大脑大概5瓦。一条斑马鱼的大脑不到0.1瓦。

但你的GPT：几千块A100 GPU，每个300瓦。

这不是在做类比——这是在用飞机引擎驱动一辆自行车。大自然花了几十亿年解决"每瓦特智能"这个问题。而我们的AI研究，过去十年里几乎只问了一个问题："加更多燃料能跑多快？"

2026年5月20日，一篇arXiv预印本提出了一个完全不同的方向。他们从生物大脑的架构中取经，重新设计了语言模型的底层结构，然后只用40B token和1,500美元的算力——对，你没看错，1,500美元——从头训练了一个1B参数的语言模型，在多个基准上与用数千倍算力训练的2-7B模型竞争。

这不是小修小补。这是脑科学、架构设计和训练策略三管齐下的一次协同创新。

---

🧠 大脑的前额顶叶环路在教我们什么？

要理解HRM-Text，先要理解一个神经科学的基本发现。

人类大脑的前额-顶叶网络（frontoparietal loop）有一个著名的功能分工：前额叶皮层负责"慢"——战略性规划、目标设定、高层次决策。顶叶皮层负责"快"——实时感知处理、运动协调、即时执行。

这种分工不是偶然的。它解决了一个根本性的计算问题：如果用同一个尺度处理所有信息，要么永远来不及（太高频的信号淹没了低速通道），要么永远想不深（太快的信息流不允许足够长的计算链）。

大脑的解决方案是分层时间尺度：战略层缓慢演化，保持全局方向和长期目标。执行层快速响应，捕捉输入流中的短期模式。两层之间通过反馈循环协调——执行层告诉战略层"当前发生了什么"，战略层告诉执行层"现在应该优先注意什么"。

这是教科书级的神经科学。但把它变成神经网络架构，是另一个故事。

---

🏗️ HRM架构：把大脑的"快-慢"分工写进代码

HRM-Text的核心是一个分层循环模型（Hierarchical Recurrent Model, HRM）。

在标准Transformer里，每一层都是一次性的前馈计算：输入进来，经过自注意力和FFN，输出出去。层与层之间没有循环，没有状态。模型看到的只有当前这层当前这步的输入。

HRM做了两件事：

第一，它把模型的计算分解为两个时间尺度——战略层（strategic layer）和执行层（execution layer）。战略层以较低的频率更新，管理长期上下文和全局推理方向。执行层以较高的频率更新，处理每个token级别的局部模式。

第二，它在战略层和执行层之间建立了深度循环连接——战略层的状态不是一次性产生的，而是在整个输入序列的处理过程中持续演化。这意味着模型的"高维目标"和"低维细节"始终在对话。

这就好比你读一本书。你的眼睛在一秒内处理十几个字的细节（执行层），但你的大脑在用一个完全不同的节奏构建"这本书到底在讲什么"的理解（战略层）。如果你每读一个字就重新思考整本书的主题，你会疯掉。但如果完全不思考主题，你会迷失在细节里。

HRM用架构设计显式地实现了这个分工。

---

🔧 MagicNorm与Warmup Deep Credit Assignment：驯服深层循环的工程魔术

分层循环模型的想法不新鲜。但深层循环有一个致命问题：训练稳定性。

循环网络中的梯度需要跨时间步反向传播。在分层设置中，战略层的时间步比执行层更长——这意味着战略层的梯度路径穿越了整个输入序列。标准的训练技术在这种深度循环下会爆炸或消失。

论文引入了两个关键技术来驯服这个问题：

MagicNorm：一种新的归一化机制，针对分层循环结构中的梯度流做特殊处理。论文没有详细公开其数学形式，但从描述看，它的核心思路是在战略层和执行层的交界处对梯度进行自适应缩放，确保缓慢演化的信号不会被高频噪声淹没，也确保快速变化的信号不会被过度压缩。

Warmup Deep Credit Assignment：一种渐进式的训练策略。在训练早期，战略层的更新频率很高（近似于执行层），模型先学会了"局部响应"。随着训练进行，战略层的更新频率逐渐降低，模型逐步学会"把眼光放长"。这个渐进式的探索策略防止了模型在还没有学会处理局部细节之前，就被迫面对全局信用分配的长程梯度问题。

这两种技术的组合，让HRM在训练稳定性上达到了实用水平。

---

📖 拒绝预训练文本：只用指令-回复对

这可能是论文最大胆的决策之一。

标准语言模型训练分两阶段：先在海量原始文本上预训练（学语言本身），再用指令数据微调（学"如何回应人类"）。预训练花费了绝大部分的算力。

HRM-Text说：我们跳过预训练。

他们从头只用指令-回复对（instruction-response pairs）训练模型。目标函数不是"预测下一个词"，而是"任务完成"——给定一条指令，生成符合要求的回复。

为了让这种训练方式有效，他们采用了PrefixLM遮罩策略：指令部分的token可以互相关注（双向注意），回复部分的token只能关注其左边的token（因果注意）。这种混合注意力让模型既理解指令的完整语义，又学会了按正确顺序生成回复。

省略预训练的好处是极端的：标准语言模型的预训练需要数万亿token——HRM-Text只用了40B，少了100-900倍。算力需求从"只有几个科技巨头能玩"直接降到了"几个研究生凑一张信用卡就能跑"。

代价是什么？模型没有见过原始文本，它的世界观完全由指令-回复对定义。这意味着它在开放域闲聊、创意写作和非常规任务上的能力可能有限——但论文没有在这些维度上报告结果。

---

📊 基准测试：1,500美元到底买到了什么？

在约1,500美元的GPU预算和40B token的训练下，1B参数的HRM-Text取得了以下成绩：

基准	HRM-Text (1B)	对比背景
MMLU (通用知识)	60.7%	与2-7B开放模型竞争
ARC-C (科学推理)	81.9%	显著优于不少大型模型
DROP (数值推理)	82.2%	与更大模型相当
GSM8K (小学数学)	84.5%	出色的数理表现
MATH (竞赛数学)	56.2%	在1B级别罕见

论文声称这些结果使用了约100-900倍更少的训练token和96-432倍更少的估计算力，与标准baseline达到竞争水平。

GSM8K上的84.5%尤其值得注意——这是一个小学数学推理基准，许多7B模型在特殊提示下才能达到这个水平。HRM-Text作为一个从头训练的1B模型，在没有链式推理提示的情况下达成这个分数，暗示它的分层循环架构可能天然适合多步推理。

---

🤔 诚实地说：我们不确定的事

真实的计算可比性。 "1,500美元"和"96-432倍更少"是所有PR中最危险的数字类型——它们严重依赖于估算假设。不同的GPU价格、不同的云服务商、不同的训练软件栈，都会让这些数字剧烈波动。论文没有详细公开训练配置（GPU型号、训练时长、批大小），使得独立验证变得困难。更关键的是，"1,500美元"对比的是"从头预训练"的算力，但HRM-Text跳过预训练的代价——在开放域能力上的潜在损失——没有被系统地控制实验量化。

MagicNorm和Warmup Credit Assignment的泛化性。 这两种稳定性技术的描述非常简略。在不公开完整实现的情况下，无法判断它们是否是HRM架构的"必要条件"，还是也可以用于其他循环架构的训练稳定性。如果其他团队无法复现，1,500美元1B模型的声明就是神话。

质量上限。 MMLU 60.7%放在2024年是好成绩。放在2026年，GPT-5.2在MMLU上接近90%。1,500美元能做的是把"入门级智能"的成本压到极致——而不是制造"高级智能"。论文没有讨论HRM-Text在更大规模上是否能延续其效率优势。1B工作得好，10B呢？100B呢？循环架构的生命力是否仅限于小规模？

生物启发的限度。 "受到大脑前额顶叶环路的启发"是一个美好的故事。但生物大脑是一个拥有数十种专门化神经递质、数十亿突触自适应规则、以及多层嵌套时间尺度的复杂系统。一个两层的分层循环模型捕捉了多少？最诚实的答案是：可能只捕捉了最表面一层——"存在两个时间尺度"——而不是去中心化的、稀疏的、全是侧向投射的真实大脑结构。生物启发是喻体，不是蓝图。

指令数据的质量偏差。 如果模型只见过指令-回复对，它的全部语言能力都来自这些数据。这意味着训练数据的质量、覆盖面和偏见结构直接决定了模型的能力边界。如果指令数据来自某几个来源（比如某几个API、某几个数据供应商），模型可能在所有基准上都表现出色——但在真实世界的边缘案例上系统性失败。

---

📚 参考文献

1. Wang, G. et al. (2026). *HRM-Text: Efficient Pretraining Beyond Scaling.* arXiv:2605.20613.

2. Kaplan, J. et al. (2020). *Scaling Laws for Neural Language Models.* arXiv:2001.08361.

3. Hoffmann, J. et al. (2022). *Training Compute-Optimal Large Language Models.* NeurIPS 2022.

4. Hasson, U. et al. (2015). *Hierarchical process memory: memory as an integral component of information processing.* Trends in Cognitive Sciences.

5. Graves, A. et al. (2014). *Neural Turing Machines.* arXiv:1410.5401.

6. Gu, A. & Dao, T. (2023). *Mamba: Linear-Time Sequence Modeling with Selective State Spaces.* arXiv:2312.00752.

---

#高效预训练 #HRM #生物启发AI #MMLU #Scaling #智柴架构实验室🎙️🔬