Humanoid-GPT:人形机器人小脑的 GPT 时刻
> 银河通用用 20 亿帧动捕数据,首次在机器人运动控制领域验证 Scaling Law。不是 MLP 不够好,是架构选错了——换 Transformer,数据每扩 10 倍性能就涨,没有饱和。
---
一、人形机器人的"小脑"困境
大模型让机器人的"大脑"越来越聪明——理解指令、规划任务、多轮对话。但当你让机器人"往前走两步",它常常摔给你看。
运动控制(Whole-Body Control, WBC) 是人形机器人的"小脑":负责把高层指令翻译成电机扭矩,让 23 个关节协同运动,保持平衡,追踪轨迹。大脑可以云化,小脑必须本地实时——控制回路通常要求 50Hz(20ms 周期),这意味着推理延迟不能超过几毫秒。
当前的主流做法分两类:
经典控制:MPC、WBC、LQR 等。稳定、可解释,但需要对每个动作手工建模,无法泛化到新动作。
学习控制:用 MLP 或 TCN 从动捕数据中学一个追踪策略。零样本泛化是它们的卖点,但有个天花板:数据不够,架构也不对。
英伟达的 SONIC 把训练帧数推到 1 亿,但仍是 MLP 架构。实验显示,在 1 亿帧左右,MLP 已经开始饱和——加更多数据,性能不再涨。这就是人形机器人运控的"GPT 前夜":数据在堆,但架构卡在浅层网络里,Scaling Law 迟迟无法显现。
银河通用的 Humanoid-GPT 做了两件事: 1. 把数据堆到 200 倍——20 亿帧,统一所有主流动捕数据集 2. 换架构——GPT 风格的 Transformer,因果注意力
然后问:Scaling Law 在物理世界成立吗?
答案是:成立,而且成立得很漂亮。
---
二、数据与架构的双重 Scaling
2.1 数据:20 亿帧的"人类动作世界"
Humanoid-GPT 的训练数据来自两个来源:
- 公开动捕数据集:AMASS、Human3.6M、CMU Mocap 等,全部重定向到统一骨架
- 大规模自采数据:在银河通用的动捕棚内录制,补充公开数据覆盖不足的动作类别
2.2 架构:GPT 风格的 Transformer
Humanoid-GPT 不是把 NLP 的 GPT 直接搬过来,而是针对运动控制重新设计的:
- 因果注意力(Causal Attention):只允许模型"看过去"的帧,不能偷看未来——这匹配实时控制的物理约束
- Transformer Decoder:堆叠多层自注意力和 MLP,参数量从 S 到 L 递增
- 生成式建模:给定目标动作序列,模型自回归地生成每一步的关节扭矩/位置指令
- 统一表示:把运动目标(keypoint trajectory)和机器人状态(qpos, qvel)编码成 token 序列,统一处理
2.3 实验:Scaling Law 的三重证据
证据一:架构换代本身就有提升
同样 200 万帧训练:
- MLP:76.89% 追踪成功率(SR)
- TCN:81.48%
- Humanoid-GPT-S:83.26%
Humanoid-GPT-B(固定架构,只加数据):
- 200 万帧:88.27% SR
- 20 亿帧:90.43% SR
- 20 亿帧:92.58% SR
证据三:MLP 饱和,Transformer 不饱和
在同等 20 亿帧数据下:
- TCN 大参数版 MPKPE:56.15mm
- Humanoid-GPT-S(参数量更小):43.25mm
- 领先幅度超过 30%
---
三、零样本泛化:从"见过才会"到"没见过的也会"
Scaling Law 不只体现在训练集上,更体现在分布外(OOD)泛化。
真机验证:宇树 G1
研究团队把 Humanoid-GPT-B 部署到宇树 G1 机器人上,用四段完全未见过的网络舞蹈视频做运动重定向(retargeting),测试零样本追踪能力。
对比系统:
- GMT(当前最强开源追踪器之一)
- TWIST(行业主流系统)
- Any2Track(近期开源方法)
- SONIC(英伟达,1 亿帧 MLP)
关键点是:这些动作来自网络视频,没有专项数据补充,没有微调。模型纯粹靠预训练阶段学到的"人类动作世界"来泛化。
四项能力兼得
此前的运控系统通常只能兼顾其中一两项: 1. 高自由度全身协同:23+ 关节的协调控制 2. 高动态运动:快速、大幅度的动作(如舞蹈、跳跃) 3. 毫秒级实时响应:控制回路不延迟 4. 高鲁棒性:应对地面不平、外力扰动
Humanoid-GPT 首次在单一系统里四项同时满足。
---
四、工程部署:大模型反而更快?
一个反直觉的结果:模型越大,推理越快。
| 系统 | 平均推理延迟 |
|---|---|
| TWIST | 2.79 ms |
| GMT | ~2.5 ms |
| Any2Track | ~3.0 ms |
| Humanoid-GPT-B | 0.39 ms |
不是靠模型小,而是靠专项内核优化:
- TensorRT 编译:把 Transformer 的因果注意力 + MLP 融合算子编译成高效 CUDA kernel
- C++ 流水线:去除 Python 开销,纯 C++ 推理
- 算子融合:把 multi-head attention 和 feedforward 的多个小算子合并成单个 kernel,减少内存搬运
这说明:架构的扩展性和推理速度不是二选一。如果底层优化到位,大模型可以比小模型更快。
---
五、为什么是"GPT-1 时刻"?
论文团队自己说这是"人形机器人小脑的 GPT-1 时刻"。这个类比不是夸张。
GPT-1 的里程碑意义在于:证明 Transformer + 大数据 + 自回归生成,在语言领域可以 work,而且 scale 得动。它本身不是最强的模型,但它打开了一个范式。
Humanoid-GPT 的里程碑意义类似:
- 证明 Transformer + 大数据 + 因果生成,在物理运动控制领域可以 work
- 证明 Scaling Law 在物理世界成立——不是语言,不是图像,是关节扭矩
- 证明零样本泛化可以从"个别技能"走向"整个动作世界"
---
六、与 SONIC 的对比:架构决定天花板
SONIC(英伟达,2025)把数据推到 1 亿帧,但坚持 MLP 架构。在 1 亿帧时,MLP 已经饱和。
Humanoid-GPT 的贡献在于系统性地证明:MLP 的瓶颈不是数据少,而是架构本身的扩展性限制。换用 Transformer,数据才能真正"吃进去"。
| 维度 | SONIC | Humanoid-GPT |
|---|---|---|
| 数据量 | 1 亿帧 | 20 亿帧(200×) |
| 架构 | MLP | Transformer(因果注意力) |
| 追踪成功率 | ~85% | 92.58% |
| 零样本泛化 | 有限 | 首次验证 OOD 泛化 |
| 推理延迟 | ~2ms | 0.39ms |
| 开源 | 否 | 是(Apache 2.0) |
---
七、开源与生态
Humanoid-GPT 已全面开源:
- 论文:arXiv:2606.03985(CVPR 2026)
- 代码:https://github.com/GalaxyGeneralRobotics/Humanoid-GPT
- 模型: checkpoints 已释放
- 部署:宇树 G1、Jetson onboard、BrainCo 灵巧手适配
- 许可证:Apache 2.0
tracking/:推理核心(ONNX policy wrapper、metrics、keypoint 转换)deploy/:真机部署(Jetson onboard、host-side retargeting、BrainCo 灵巧手)scripts/:推理、评估、可视化、Gradio demoprojects/:Harmonic Motion Encoder、General Quality Selection 等扩展模块
---
八、局限与行业思考
局限
1. 数据依赖:20 亿帧虽然大,但仍是动捕数据,不是真实机器人交互数据。仿真到真实的 gap(Sim-to-Real)仍然存在,虽然论文通过真机验证缓解了这个问题。 2. 动态 vs 接触:舞蹈、跑步等动作验证了高动态,但复杂的接触交互(攀岩、操作工具)覆盖不足。 3. 因果注意力的信息损失:不能"看未来"意味着模型无法利用全局动作信息做规划,只能做局部追踪。对于需要前瞻的运动(如跳远),这可能是一个瓶颈。
行业战略含义
人形机器人行业目前分两派:
- 运动控制派:优先突破硬件和底层控制,认为大脑可以后加
- 大模型派:优先做通用大脑,认为小脑可以用经典控制凑合
银河通用的 AstraBrain 架构正是这种思路:大脑(VLM)+ 脑桥(异步同步)+ 小脑(Humanoid-GPT)。小脑的基础能力越强,整个系统的通用性就越容易扩展。
---
九、一句话总结
Humanoid-GPT 用 20 亿帧动捕数据和一个 GPT 风格的 Transformer,首次证明了 Scaling Law 在机器人运动控制领域成立。它让人形机器人的"小脑"从"学单个技能"走向"理解整个动作世界"——这是机器人底层控制的 GPT-1 时刻。
---
参考信息
- 论文:Qi et al. "Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking", arXiv:2606.03985, CVPR 2026
- 团队:银河通用(GalaxyGeneralRobotics),Zekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi
- 产品:AstraBrain-WBC 0.5
- 代码:https://github.com/GalaxyGeneralRobotics/Humanoid-GPT
- 许可证:Apache 2.0
- 部署平台:宇树 G1, Jetson, BrainCo 灵巧手
- 对比系统:SONIC(NVIDIA)、TWIST、GMT、Any2Track
- 关键数字:20亿帧数据、92.58% SR、0.39ms 延迟、50Hz 控制
*今天五篇论文连成一个完整的叙事:StatsPAI 给 Agent 做统计工具,LeWorldModel 让 AI 理解物理,StepPO 让 Agent 理解动作粒度,RAGEN-2 检测 AI 是否假装思考,ZPPO 让小模型向老师学习,Humanoid-GPT 让机器人学会运动。它们都在追问同一个问题:如何给智能体(无论是数字还是物理)正确的学习框架?从数据到架构,从诊断到治疗,从虚拟到真实——这个夏天的 AI 研究,正在从"做大模型"走向"让模型真正学会做事"。*
#AI研究 #人形机器人 #运动控制 #ScalingLaw #Transformer #银河通用 #AstraBrain #HumanoidGPT #CVPR2026
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens