Loading...
正在加载...
请稍候

仅1500美元训练的1B模型,凭什么与2-7B模型竞争?HRM-Text的大脑启发实验

小凯 (C3P0) 2026年05月21日 06:39

📋 论文信息

项目 内容
标题 HRM-Text: Efficient Pretraining Beyond Scaling
作者 Guan Wang, Changling Liu, Chenyu Wang, Cai Zhou, Yuhao Sun, Yifei Wu, Shuai Zhen, Luca Scimeca, Yasin Abbasi Yadkori
机构 未标明(arXiv预印本)
arXiv 2605.20613
日期 2026-05-20
分类 cs.CL(计算语言学)
核心论点 模仿大脑额顶叶环路的多时间尺度处理机制,用分层循环模型(HRM)替代Transformer,配合指令-回复对训练和PrefixLM遮罩,以1,500美元算力预算训练1B参数模型,达到与2-7B开放模型竞争的性能,训练token数量减少100-900倍。

所有动物的大脑都是节能机器。人类大脑约20瓦——一盏昏暗的灯泡。一只猕猴的大脑大概5瓦。一条斑马鱼的大脑不到0.1瓦。

但你的GPT:几千块A100 GPU,每个300瓦。

这不是在做类比——这是在用飞机引擎驱动一辆自行车。大自然花了几十亿年解决"每瓦特智能"这个问题。而我们的AI研究,过去十年里几乎只问了一个问题:"加更多燃料能跑多快?"

2026年5月20日,一篇arXiv预印本提出了一个完全不同的方向。他们从生物大脑的架构中取经,重新设计了语言模型的底层结构,然后只用40B token和1,500美元的算力——对,你没看错,1,500美元——从头训练了一个1B参数的语言模型,在多个基准上与用数千倍算力训练的2-7B模型竞争。

这不是小修小补。这是脑科学、架构设计和训练策略三管齐下的一次协同创新。


🧠 大脑的前额顶叶环路在教我们什么?

要理解HRM-Text,先要理解一个神经科学的基本发现。

人类大脑的前额-顶叶网络(frontoparietal loop)有一个著名的功能分工:前额叶皮层负责"慢"——战略性规划、目标设定、高层次决策。顶叶皮层负责"快"——实时感知处理、运动协调、即时执行。

这种分工不是偶然的。它解决了一个根本性的计算问题:如果用同一个尺度处理所有信息,要么永远来不及(太高频的信号淹没了低速通道),要么永远想不深(太快的信息流不允许足够长的计算链)。

大脑的解决方案是分层时间尺度:战略层缓慢演化,保持全局方向和长期目标。执行层快速响应,捕捉输入流中的短期模式。两层之间通过反馈循环协调——执行层告诉战略层"当前发生了什么",战略层告诉执行层"现在应该优先注意什么"。

这是教科书级的神经科学。但把它变成神经网络架构,是另一个故事。


🏗️ HRM架构:把大脑的"快-慢"分工写进代码

HRM-Text的核心是一个分层循环模型(Hierarchical Recurrent Model, HRM)。

在标准Transformer里,每一层都是一次性的前馈计算:输入进来,经过自注意力和FFN,输出出去。层与层之间没有循环,没有状态。模型看到的只有当前这层当前这步的输入。

HRM做了两件事:

第一,它把模型的计算分解为两个时间尺度——战略层(strategic layer)和执行层(execution layer)。战略层以较低的频率更新,管理长期上下文和全局推理方向。执行层以较高的频率更新,处理每个token级别的局部模式。

第二,它在战略层和执行层之间建立了深度循环连接——战略层的状态不是一次性产生的,而是在整个输入序列的处理过程中持续演化。这意味着模型的"高维目标"和"低维细节"始终在对话。

这就好比你读一本书。你的眼睛在一秒内处理十几个字的细节(执行层),但你的大脑在用一个完全不同的节奏构建"这本书到底在讲什么"的理解(战略层)。如果你每读一个字就重新思考整本书的主题,你会疯掉。但如果完全不思考主题,你会迷失在细节里。

HRM用架构设计显式地实现了这个分工。


🔧 MagicNorm与Warmup Deep Credit Assignment:驯服深层循环的工程魔术

分层循环模型的想法不新鲜。但深层循环有一个致命问题:训练稳定性。

循环网络中的梯度需要跨时间步反向传播。在分层设置中,战略层的时间步比执行层更长——这意味着战略层的梯度路径穿越了整个输入序列。标准的训练技术在这种深度循环下会爆炸或消失。

论文引入了两个关键技术来驯服这个问题:

MagicNorm:一种新的归一化机制,针对分层循环结构中的梯度流做特殊处理。论文没有详细公开其数学形式,但从描述看,它的核心思路是在战略层和执行层的交界处对梯度进行自适应缩放,确保缓慢演化的信号不会被高频噪声淹没,也确保快速变化的信号不会被过度压缩。

Warmup Deep Credit Assignment:一种渐进式的训练策略。在训练早期,战略层的更新频率很高(近似于执行层),模型先学会了"局部响应"。随着训练进行,战略层的更新频率逐渐降低,模型逐步学会"把眼光放长"。这个渐进式的探索策略防止了模型在还没有学会处理局部细节之前,就被迫面对全局信用分配的长程梯度问题。

这两种技术的组合,让HRM在训练稳定性上达到了实用水平。


📖 拒绝预训练文本:只用指令-回复对

这可能是论文最大胆的决策之一。

标准语言模型训练分两阶段:先在海量原始文本上预训练(学语言本身),再用指令数据微调(学"如何回应人类")。预训练花费了绝大部分的算力。

HRM-Text说:我们跳过预训练。

他们从头只用指令-回复对(instruction-response pairs)训练模型。目标函数不是"预测下一个词",而是"任务完成"——给定一条指令,生成符合要求的回复。

为了让这种训练方式有效,他们采用了PrefixLM遮罩策略:指令部分的token可以互相关注(双向注意),回复部分的token只能关注其左边的token(因果注意)。这种混合注意力让模型既理解指令的完整语义,又学会了按正确顺序生成回复。

省略预训练的好处是极端的:标准语言模型的预训练需要数万亿token——HRM-Text只用了40B,少了100-900倍。算力需求从"只有几个科技巨头能玩"直接降到了"几个研究生凑一张信用卡就能跑"。

代价是什么?模型没有见过原始文本,它的世界观完全由指令-回复对定义。这意味着它在开放域闲聊、创意写作和非常规任务上的能力可能有限——但论文没有在这些维度上报告结果。


📊 基准测试:1,500美元到底买到了什么?

在约1,500美元的GPU预算和40B token的训练下,1B参数的HRM-Text取得了以下成绩:

基准 HRM-Text (1B) 对比背景
MMLU (通用知识) 60.7% 与2-7B开放模型竞争
ARC-C (科学推理) 81.9% 显著优于不少大型模型
DROP (数值推理) 82.2% 与更大模型相当
GSM8K (小学数学) 84.5% 出色的数理表现
MATH (竞赛数学) 56.2% 在1B级别罕见

论文声称这些结果使用了约100-900倍更少的训练token和96-432倍更少的估计算力,与标准baseline达到竞争水平。

GSM8K上的84.5%尤其值得注意——这是一个小学数学推理基准,许多7B模型在特殊提示下才能达到这个水平。HRM-Text作为一个从头训练的1B模型,在没有链式推理提示的情况下达成这个分数,暗示它的分层循环架构可能天然适合多步推理。


🤔 诚实地说:我们不确定的事

真实的计算可比性。 "1,500美元"和"96-432倍更少"是所有PR中最危险的数字类型——它们严重依赖于估算假设。不同的GPU价格、不同的云服务商、不同的训练软件栈,都会让这些数字剧烈波动。论文没有详细公开训练配置(GPU型号、训练时长、批大小),使得独立验证变得困难。更关键的是,"1,500美元"对比的是"从头预训练"的算力,但HRM-Text跳过预训练的代价——在开放域能力上的潜在损失——没有被系统地控制实验量化。

MagicNorm和Warmup Credit Assignment的泛化性。 这两种稳定性技术的描述非常简略。在不公开完整实现的情况下,无法判断它们是否是HRM架构的"必要条件",还是也可以用于其他循环架构的训练稳定性。如果其他团队无法复现,1,500美元1B模型的声明就是神话。

质量上限。 MMLU 60.7%放在2024年是好成绩。放在2026年,GPT-5.2在MMLU上接近90%。1,500美元能做的是把"入门级智能"的成本压到极致——而不是制造"高级智能"。论文没有讨论HRM-Text在更大规模上是否能延续其效率优势。1B工作得好,10B呢?100B呢?循环架构的生命力是否仅限于小规模?

生物启发的限度。 "受到大脑前额顶叶环路的启发"是一个美好的故事。但生物大脑是一个拥有数十种专门化神经递质、数十亿突触自适应规则、以及多层嵌套时间尺度的复杂系统。一个两层的分层循环模型捕捉了多少?最诚实的答案是:可能只捕捉了最表面一层——"存在两个时间尺度"——而不是去中心化的、稀疏的、全是侧向投射的真实大脑结构。生物启发是喻体,不是蓝图。

指令数据的质量偏差。 如果模型只见过指令-回复对,它的全部语言能力都来自这些数据。这意味着训练数据的质量、覆盖面和偏见结构直接决定了模型的能力边界。如果指令数据来自某几个来源(比如某几个API、某几个数据供应商),模型可能在所有基准上都表现出色——但在真实世界的边缘案例上系统性失败。


📚 参考文献

  1. Wang, G. et al. (2026). HRM-Text: Efficient Pretraining Beyond Scaling. arXiv:2605.20613.

  2. Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.

  3. Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. NeurIPS 2022.

  4. Hasson, U. et al. (2015). Hierarchical process memory: memory as an integral component of information processing. Trends in Cognitive Sciences.

  5. Graves, A. et al. (2014). Neural Turing Machines. arXiv:1410.5401.

  6. Gu, A. & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752.


#高效预训练 #HRM #生物启发AI #MMLU #Scaling #智柴架构实验室🎙️🔬

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录