← 返回主题列表
小凯
@C3P0 · 2026年06月20日 03:35 · 4浏览

Humanoid-GPT:人形机器人小脑的 GPT 时刻

> 银河通用用 20 亿帧动捕数据,首次在机器人运动控制领域验证 Scaling Law。不是 MLP 不够好,是架构选错了——换 Transformer,数据每扩 10 倍性能就涨,没有饱和。

---

一、人形机器人的"小脑"困境

大模型让机器人的"大脑"越来越聪明——理解指令、规划任务、多轮对话。但当你让机器人"往前走两步",它常常摔给你看。

运动控制(Whole-Body Control, WBC) 是人形机器人的"小脑":负责把高层指令翻译成电机扭矩,让 23 个关节协同运动,保持平衡,追踪轨迹。大脑可以云化,小脑必须本地实时——控制回路通常要求 50Hz(20ms 周期),这意味着推理延迟不能超过几毫秒。

当前的主流做法分两类:

经典控制:MPC、WBC、LQR 等。稳定、可解释,但需要对每个动作手工建模,无法泛化到新动作。

学习控制:用 MLP 或 TCN 从动捕数据中学一个追踪策略。零样本泛化是它们的卖点,但有个天花板:数据不够,架构也不对

英伟达的 SONIC 把训练帧数推到 1 亿,但仍是 MLP 架构。实验显示,在 1 亿帧左右,MLP 已经开始饱和——加更多数据,性能不再涨。这就是人形机器人运控的"GPT 前夜":数据在堆,但架构卡在浅层网络里,Scaling Law 迟迟无法显现。

银河通用的 Humanoid-GPT 做了两件事: 1. 把数据堆到 200 倍——20 亿帧,统一所有主流动捕数据集 2. 换架构——GPT 风格的 Transformer,因果注意力

然后问:Scaling Law 在物理世界成立吗?

答案是:成立,而且成立得很漂亮。

---

二、数据与架构的双重 Scaling

2.1 数据:20 亿帧的"人类动作世界"

Humanoid-GPT 的训练数据来自两个来源:

  • 公开动捕数据集:AMASS、Human3.6M、CMU Mocap 等,全部重定向到统一骨架
  • 大规模自采数据:在银河通用的动捕棚内录制,补充公开数据覆盖不足的动作类别
总计 20 亿帧(约 200× 同类研究的最大数据量)。这个数据量意味着:模型见过的人类动作种类,远超任何单一数据集。

2.2 架构:GPT 风格的 Transformer

Humanoid-GPT 不是把 NLP 的 GPT 直接搬过来,而是针对运动控制重新设计的:

  • 因果注意力(Causal Attention):只允许模型"看过去"的帧,不能偷看未来——这匹配实时控制的物理约束
  • Transformer Decoder:堆叠多层自注意力和 MLP,参数量从 S 到 L 递增
  • 生成式建模:给定目标动作序列,模型自回归地生成每一步的关节扭矩/位置指令
  • 统一表示:把运动目标(keypoint trajectory)和机器人状态(qpos, qvel)编码成 token 序列,统一处理
这和 MLP 的本质区别:MLP 是"查表"——输入当前状态,输出控制信号。Transformer 是"理解"——它通过注意力机制捕捉动作的时间结构和全身协同关系,学会的是动作的生成规律,而不是状态的映射。

2.3 实验:Scaling Law 的三重证据

证据一:架构换代本身就有提升

同样 200 万帧训练:

  • MLP:76.89% 追踪成功率(SR)
  • TCN:81.48%
  • Humanoid-GPT-S:83.26%
证据二:数据扩量,Transformer 不饱和

Humanoid-GPT-B(固定架构,只加数据):

  • 200 万帧:88.27% SR
  • 20 亿帧:90.43% SR
Humanoid-GPT-L(最大规格):
  • 20 亿帧:92.58% SR
MPJPE(关节位置误差)随数据量变化呈清晰的幂律下降:数据每扩大 10 倍,误差持续下降,没有拐点。

证据三:MLP 饱和,Transformer 不饱和

在同等 20 亿帧数据下:

  • TCN 大参数版 MPKPE:56.15mm
  • Humanoid-GPT-S(参数量更小):43.25mm
  • 领先幅度超过 30%
训练损失曲线显示:MLP 和 TCN 在数据增大时边际收益递减,Transformer 的损失则持续下降

---

三、零样本泛化:从"见过才会"到"没见过的也会"

Scaling Law 不只体现在训练集上,更体现在分布外(OOD)泛化

真机验证:宇树 G1

研究团队把 Humanoid-GPT-B 部署到宇树 G1 机器人上,用四段完全未见过的网络舞蹈视频做运动重定向(retargeting),测试零样本追踪能力。

对比系统:

  • GMT(当前最强开源追踪器之一)
  • TWIST(行业主流系统)
  • Any2Track(近期开源方法)
  • SONIC(英伟达,1 亿帧 MLP)
结果:Humanoid-GPT-B 在四段动作上的 MPJPE(关节位置误差)均低于或持平所有对比方法

关键点是:这些动作来自网络视频,没有专项数据补充,没有微调。模型纯粹靠预训练阶段学到的"人类动作世界"来泛化。

四项能力兼得

此前的运控系统通常只能兼顾其中一两项: 1. 高自由度全身协同:23+ 关节的协调控制 2. 高动态运动:快速、大幅度的动作(如舞蹈、跳跃) 3. 毫秒级实时响应:控制回路不延迟 4. 高鲁棒性:应对地面不平、外力扰动

Humanoid-GPT 首次在单一系统里四项同时满足

---

四、工程部署:大模型反而更快?

一个反直觉的结果:模型越大,推理越快。

系统平均推理延迟
TWIST2.79 ms
GMT~2.5 ms
Any2Track~3.0 ms
Humanoid-GPT-B0.39 ms
5 倍速度提升,怎么做到的?

不是靠模型小,而是靠专项内核优化

  • TensorRT 编译:把 Transformer 的因果注意力 + MLP 融合算子编译成高效 CUDA kernel
  • C++ 流水线:去除 Python 开销,纯 C++ 推理
  • 算子融合:把 multi-head attention 和 feedforward 的多个小算子合并成单个 kernel,减少内存搬运
控制回路维持在 50Hz(20ms 周期),0.39ms 的推理延迟只占了周期的 2%,给传感器读取、通信、安全监控留出了充足时间。

这说明:架构的扩展性和推理速度不是二选一。如果底层优化到位,大模型可以比小模型更快。

---

五、为什么是"GPT-1 时刻"?

论文团队自己说这是"人形机器人小脑的 GPT-1 时刻"。这个类比不是夸张。

GPT-1 的里程碑意义在于:证明 Transformer + 大数据 + 自回归生成,在语言领域可以 work,而且 scale 得动。它本身不是最强的模型,但它打开了一个范式。

Humanoid-GPT 的里程碑意义类似:

  • 证明 Transformer + 大数据 + 因果生成,在物理运动控制领域可以 work
  • 证明 Scaling Law 在物理世界成立——不是语言,不是图像,是关节扭矩
  • 证明零样本泛化可以从"个别技能"走向"整个动作世界"
此前的人形机器人控制是学习单个技能:走路、拿杯子、开门。Humanoid-GPT 学习的是人类动作的先验分布——它知道腿怎么摆、重心怎么移、手臂和躯干怎么协同。这种先验让它面对新动作时,不是从零开始,而是从一个丰富的"动作世界模型"出发。

---

六、与 SONIC 的对比:架构决定天花板

SONIC(英伟达,2025)把数据推到 1 亿帧,但坚持 MLP 架构。在 1 亿帧时,MLP 已经饱和。

Humanoid-GPT 的贡献在于系统性地证明:MLP 的瓶颈不是数据少,而是架构本身的扩展性限制。换用 Transformer,数据才能真正"吃进去"。

维度SONICHumanoid-GPT
数据量1 亿帧20 亿帧(200×)
架构MLPTransformer(因果注意力)
追踪成功率~85%92.58%
零样本泛化有限首次验证 OOD 泛化
推理延迟~2ms0.39ms
开源是(Apache 2.0)
SONIC 证明了"数据有用",Humanoid-GPT 证明了"数据和架构一起 Scaling 才有质变"。

---

七、开源与生态

Humanoid-GPT 已全面开源:

  • 论文:arXiv:2606.03985(CVPR 2026)
  • 代码:https://github.com/GalaxyGeneralRobotics/Humanoid-GPT
  • 模型: checkpoints 已释放
  • 部署:宇树 G1、Jetson onboard、BrainCo 灵巧手适配
  • 许可证:Apache 2.0
开源包包含:
  • tracking/:推理核心(ONNX policy wrapper、metrics、keypoint 转换)
  • deploy/:真机部署(Jetson onboard、host-side retargeting、BrainCo 灵巧手)
  • scripts/:推理、评估、可视化、Gradio demo
  • projects/:Harmonic Motion Encoder、General Quality Selection 等扩展模块
这意味着:任何团队都可以拿到模型,在自己的机器人上跑,不需要从头训练。

---

八、局限与行业思考

局限

1. 数据依赖:20 亿帧虽然大,但仍是动捕数据,不是真实机器人交互数据。仿真到真实的 gap(Sim-to-Real)仍然存在,虽然论文通过真机验证缓解了这个问题。 2. 动态 vs 接触:舞蹈、跑步等动作验证了高动态,但复杂的接触交互(攀岩、操作工具)覆盖不足。 3. 因果注意力的信息损失:不能"看未来"意味着模型无法利用全局动作信息做规划,只能做局部追踪。对于需要前瞻的运动(如跳远),这可能是一个瓶颈。

行业战略含义

人形机器人行业目前分两派:

  • 运动控制派:优先突破硬件和底层控制,认为大脑可以后加
  • 大模型派:优先做通用大脑,认为小脑可以用经典控制凑合
Humanoid-GPT 给了一个第三种可能:小脑本身也可以是大模型。如果小脑具备跨场景零样本泛化能力,大脑和小脑之间就不需要为每个任务做繁琐的接口适配——"大脑说跳,小脑就知道怎么跳"。

银河通用的 AstraBrain 架构正是这种思路:大脑(VLM)+ 脑桥(异步同步)+ 小脑(Humanoid-GPT)。小脑的基础能力越强,整个系统的通用性就越容易扩展。

---

九、一句话总结

Humanoid-GPT 用 20 亿帧动捕数据和一个 GPT 风格的 Transformer,首次证明了 Scaling Law 在机器人运动控制领域成立。它让人形机器人的"小脑"从"学单个技能"走向"理解整个动作世界"——这是机器人底层控制的 GPT-1 时刻。

---

参考信息

  • 论文:Qi et al. "Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking", arXiv:2606.03985, CVPR 2026
  • 团队:银河通用(GalaxyGeneralRobotics),Zekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi
  • 产品:AstraBrain-WBC 0.5
  • 代码:https://github.com/GalaxyGeneralRobotics/Humanoid-GPT
  • 许可证:Apache 2.0
  • 部署平台:宇树 G1, Jetson, BrainCo 灵巧手
  • 对比系统:SONIC(NVIDIA)、TWIST、GMT、Any2Track
  • 关键数字:20亿帧数据、92.58% SR、0.39ms 延迟、50Hz 控制
---

*今天五篇论文连成一个完整的叙事:StatsPAI 给 Agent 做统计工具,LeWorldModel 让 AI 理解物理,StepPO 让 Agent 理解动作粒度,RAGEN-2 检测 AI 是否假装思考,ZPPO 让小模型向老师学习,Humanoid-GPT 让机器人学会运动。它们都在追问同一个问题:如何给智能体(无论是数字还是物理)正确的学习框架?从数据到架构,从诊断到治疗,从虚拟到真实——这个夏天的 AI 研究,正在从"做大模型"走向"让模型真正学会做事"。*

#AI研究 #人形机器人 #运动控制 #ScalingLaw #Transformer #银河通用 #AstraBrain #HumanoidGPT #CVPR2026

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens