Humanoid-GPT：人形机器人小脑的 GPT 时刻

> 银河通用用 20 亿帧动捕数据，首次在机器人运动控制领域验证 Scaling Law。不是 MLP 不够好，是架构选错了——换 Transformer，数据每扩 10 倍性能就涨，没有饱和。

---

一、人形机器人的"小脑"困境

大模型让机器人的"大脑"越来越聪明——理解指令、规划任务、多轮对话。但当你让机器人"往前走两步"，它常常摔给你看。

运动控制（Whole-Body Control, WBC） 是人形机器人的"小脑"：负责把高层指令翻译成电机扭矩，让 23 个关节协同运动，保持平衡，追踪轨迹。大脑可以云化，小脑必须本地实时——控制回路通常要求 50Hz（20ms 周期），这意味着推理延迟不能超过几毫秒。

当前的主流做法分两类：

经典控制：MPC、WBC、LQR 等。稳定、可解释，但需要对每个动作手工建模，无法泛化到新动作。

学习控制：用 MLP 或 TCN 从动捕数据中学一个追踪策略。零样本泛化是它们的卖点，但有个天花板：数据不够，架构也不对。

英伟达的 SONIC 把训练帧数推到 1 亿，但仍是 MLP 架构。实验显示，在 1 亿帧左右，MLP 已经开始饱和——加更多数据，性能不再涨。这就是人形机器人运控的"GPT 前夜"：数据在堆，但架构卡在浅层网络里，Scaling Law 迟迟无法显现。

银河通用的 Humanoid-GPT 做了两件事： 1. 把数据堆到 200 倍——20 亿帧，统一所有主流动捕数据集 2. 换架构——GPT 风格的 Transformer，因果注意力

然后问：Scaling Law 在物理世界成立吗？

答案是：成立，而且成立得很漂亮。

---

二、数据与架构的双重 Scaling

2.1 数据：20 亿帧的"人类动作世界"

Humanoid-GPT 的训练数据来自两个来源：

公开动捕数据集：AMASS、Human3.6M、CMU Mocap 等，全部重定向到统一骨架
大规模自采数据：在银河通用的动捕棚内录制，补充公开数据覆盖不足的动作类别

总计 20 亿帧（约 200× 同类研究的最大数据量）。这个数据量意味着：模型见过的人类动作种类，远超任何单一数据集。

2.2 架构：GPT 风格的 Transformer

Humanoid-GPT 不是把 NLP 的 GPT 直接搬过来，而是针对运动控制重新设计的：

因果注意力（Causal Attention）：只允许模型"看过去"的帧，不能偷看未来——这匹配实时控制的物理约束
Transformer Decoder：堆叠多层自注意力和 MLP，参数量从 S 到 L 递增
生成式建模：给定目标动作序列，模型自回归地生成每一步的关节扭矩/位置指令
统一表示：把运动目标（keypoint trajectory）和机器人状态（qpos, qvel）编码成 token 序列，统一处理

这和 MLP 的本质区别：MLP 是"查表"——输入当前状态，输出控制信号。Transformer 是"理解"——它通过注意力机制捕捉动作的时间结构和全身协同关系，学会的是动作的生成规律，而不是状态的映射。

2.3 实验：Scaling Law 的三重证据

证据一：架构换代本身就有提升

同样 200 万帧训练：

MLP：76.89% 追踪成功率（SR）
TCN：81.48%
Humanoid-GPT-S：83.26%

证据二：数据扩量，Transformer 不饱和

Humanoid-GPT-B（固定架构，只加数据）：

200 万帧：88.27% SR
20 亿帧：90.43% SR

Humanoid-GPT-L（最大规格）：

20 亿帧：92.58% SR

MPJPE（关节位置误差）随数据量变化呈清晰的幂律下降：数据每扩大 10 倍，误差持续下降，没有拐点。

证据三：MLP 饱和，Transformer 不饱和

在同等 20 亿帧数据下：

TCN 大参数版 MPKPE：56.15mm
Humanoid-GPT-S（参数量更小）：43.25mm
领先幅度超过 30%

训练损失曲线显示：MLP 和 TCN 在数据增大时边际收益递减，Transformer 的损失则持续下降。

---

三、零样本泛化：从"见过才会"到"没见过的也会"

Scaling Law 不只体现在训练集上，更体现在分布外（OOD）泛化。

真机验证：宇树 G1

研究团队把 Humanoid-GPT-B 部署到宇树 G1 机器人上，用四段完全未见过的网络舞蹈视频做运动重定向（retargeting），测试零样本追踪能力。

对比系统：

GMT（当前最强开源追踪器之一）
TWIST（行业主流系统）
Any2Track（近期开源方法）
SONIC（英伟达，1 亿帧 MLP）

结果：Humanoid-GPT-B 在四段动作上的 MPJPE（关节位置误差）均低于或持平所有对比方法。

关键点是：这些动作来自网络视频，没有专项数据补充，没有微调。模型纯粹靠预训练阶段学到的"人类动作世界"来泛化。

四项能力兼得

此前的运控系统通常只能兼顾其中一两项： 1. 高自由度全身协同：23+ 关节的协调控制 2. 高动态运动：快速、大幅度的动作（如舞蹈、跳跃） 3. 毫秒级实时响应：控制回路不延迟 4. 高鲁棒性：应对地面不平、外力扰动

Humanoid-GPT 首次在单一系统里四项同时满足。

---

四、工程部署：大模型反而更快？

一个反直觉的结果：模型越大，推理越快。

系统	平均推理延迟
TWIST	2.79 ms
GMT	~2.5 ms
Any2Track	~3.0 ms
Humanoid-GPT-B	0.39 ms

5 倍速度提升，怎么做到的？

不是靠模型小，而是靠专项内核优化：

TensorRT 编译：把 Transformer 的因果注意力 + MLP 融合算子编译成高效 CUDA kernel
C++ 流水线：去除 Python 开销，纯 C++ 推理
算子融合：把 multi-head attention 和 feedforward 的多个小算子合并成单个 kernel，减少内存搬运

控制回路维持在 50Hz（20ms 周期），0.39ms 的推理延迟只占了周期的 2%，给传感器读取、通信、安全监控留出了充足时间。

这说明：架构的扩展性和推理速度不是二选一。如果底层优化到位，大模型可以比小模型更快。

---

五、为什么是"GPT-1 时刻"？

论文团队自己说这是"人形机器人小脑的 GPT-1 时刻"。这个类比不是夸张。

GPT-1 的里程碑意义在于：证明 Transformer + 大数据 + 自回归生成，在语言领域可以 work，而且 scale 得动。它本身不是最强的模型，但它打开了一个范式。

Humanoid-GPT 的里程碑意义类似：

证明 Transformer + 大数据 + 因果生成，在物理运动控制领域可以 work
证明 Scaling Law 在物理世界成立——不是语言，不是图像，是关节扭矩
证明零样本泛化可以从"个别技能"走向"整个动作世界"

此前的人形机器人控制是学习单个技能：走路、拿杯子、开门。Humanoid-GPT 学习的是人类动作的先验分布——它知道腿怎么摆、重心怎么移、手臂和躯干怎么协同。这种先验让它面对新动作时，不是从零开始，而是从一个丰富的"动作世界模型"出发。

---

六、与 SONIC 的对比：架构决定天花板

SONIC（英伟达，2025）把数据推到 1 亿帧，但坚持 MLP 架构。在 1 亿帧时，MLP 已经饱和。

Humanoid-GPT 的贡献在于系统性地证明：MLP 的瓶颈不是数据少，而是架构本身的扩展性限制。换用 Transformer，数据才能真正"吃进去"。

维度	SONIC	Humanoid-GPT
数据量	1 亿帧	20 亿帧（200×）
架构	MLP	Transformer（因果注意力）
追踪成功率	~85%	92.58%
零样本泛化	有限	首次验证 OOD 泛化
推理延迟	~2ms	0.39ms
开源	否	是（Apache 2.0）

SONIC 证明了"数据有用"，Humanoid-GPT 证明了"数据和架构一起 Scaling 才有质变"。

---

七、开源与生态

Humanoid-GPT 已全面开源：

论文：arXiv:2606.03985（CVPR 2026）
代码：https://github.com/GalaxyGeneralRobotics/Humanoid-GPT
模型： checkpoints 已释放
部署：宇树 G1、Jetson onboard、BrainCo 灵巧手适配
许可证：Apache 2.0

开源包包含：

tracking/：推理核心（ONNX policy wrapper、metrics、keypoint 转换）
deploy/：真机部署（Jetson onboard、host-side retargeting、BrainCo 灵巧手）
scripts/：推理、评估、可视化、Gradio demo
projects/：Harmonic Motion Encoder、General Quality Selection 等扩展模块

这意味着：任何团队都可以拿到模型，在自己的机器人上跑，不需要从头训练。

---

八、局限与行业思考

局限

1. 数据依赖：20 亿帧虽然大，但仍是动捕数据，不是真实机器人交互数据。仿真到真实的 gap（Sim-to-Real）仍然存在，虽然论文通过真机验证缓解了这个问题。 2. 动态 vs 接触：舞蹈、跑步等动作验证了高动态，但复杂的接触交互（攀岩、操作工具）覆盖不足。 3. 因果注意力的信息损失：不能"看未来"意味着模型无法利用全局动作信息做规划，只能做局部追踪。对于需要前瞻的运动（如跳远），这可能是一个瓶颈。

行业战略含义

人形机器人行业目前分两派：

运动控制派：优先突破硬件和底层控制，认为大脑可以后加
大模型派：优先做通用大脑，认为小脑可以用经典控制凑合

Humanoid-GPT 给了一个第三种可能：小脑本身也可以是大模型。如果小脑具备跨场景零样本泛化能力，大脑和小脑之间就不需要为每个任务做繁琐的接口适配——"大脑说跳，小脑就知道怎么跳"。

银河通用的 AstraBrain 架构正是这种思路：大脑（VLM）+ 脑桥（异步同步）+ 小脑（Humanoid-GPT）。小脑的基础能力越强，整个系统的通用性就越容易扩展。

---

九、一句话总结

Humanoid-GPT 用 20 亿帧动捕数据和一个 GPT 风格的 Transformer，首次证明了 Scaling Law 在机器人运动控制领域成立。它让人形机器人的"小脑"从"学单个技能"走向"理解整个动作世界"——这是机器人底层控制的 GPT-1 时刻。

---

参考信息

论文：Qi et al. "Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking", arXiv:2606.03985, CVPR 2026
团队：银河通用（GalaxyGeneralRobotics），Zekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi
产品：AstraBrain-WBC 0.5
代码：https://github.com/GalaxyGeneralRobotics/Humanoid-GPT
许可证：Apache 2.0
部署平台：宇树 G1, Jetson, BrainCo 灵巧手
对比系统：SONIC（NVIDIA）、TWIST、GMT、Any2Track
关键数字：20亿帧数据、92.58% SR、0.39ms 延迟、50Hz 控制

---

*今天五篇论文连成一个完整的叙事：StatsPAI 给 Agent 做统计工具，LeWorldModel 让 AI 理解物理，StepPO 让 Agent 理解动作粒度，RAGEN-2 检测 AI 是否假装思考，ZPPO 让小模型向老师学习，Humanoid-GPT 让机器人学会运动。它们都在追问同一个问题：如何给智能体（无论是数字还是物理）正确的学习框架？从数据到架构，从诊断到治疗，从虚拟到真实——这个夏天的 AI 研究，正在从"做大模型"走向"让模型真正学会做事"。*

#AI研究 #人形机器人 #运动控制 #ScalingLaw #Transformer #银河通用 #AstraBrain #HumanoidGPT #CVPR2026