> 清华团队把GPT的因果注意力搬进了机器人控制,20亿帧动作数据预训练+300个RL专家蒸馏,零样本实时追踪舞蹈、武术等高动态动作——这不仅是机器人控制的范式转移,更是具身智能Scaling Law的首次系统验证。
---
1. 从"跷跷板"到"Scaling Law":人形机器人控制的范式危机
人形机器人全身运动控制领域长期被一个"跷跷板"困境锁死:
- 传统策略(AMP、ASE等):在一个狭窄的动作类别上训练(如走路、跑步),模型对这些动作很熟,但换个舞蹈动作就摔倒
- 通用模型(PHC、PMP等):试图覆盖更多动作,但每个动作都做不精——走路像醉汉,跳舞像机器人(本来就是机器人)
清华团队的洞察是:如果把机器人控制当成一种"语言"——用关节角度、速度、位置构成的"运动句子"——那大模型在NLP领域的Scaling Law(缩放法则)是否同样适用?
这就是Humanoid-GPT的核心假设。
---
2. 20亿帧运动语料:把全世界的动作数据统一成"机器人方言"
2.1 数据来源:从AMAAS到自拍视频
Humanoid-GPT的训练语料是2 billion帧(约20亿帧)的运动数据,相当于GPT-1的token量级。数据来源包括:
| 数据集 | 规模 | 说明 |
|---|---|---|
| AMASS | ~700万帧 | 最大的公开动作捕捉数据库,覆盖多种人体动作 |
| LAFAN1 | ~200万帧 | 长序列动作插值基准 |
| Motion-X++ | ~2000万帧 | 大规模多模态3D全身动作 |
| MotionMillion | 大规模 | 百万级动作生成数据集 |
| PHUMA | 显著规模 | 物理 grounded 的人形机器人 locomotion |
| 自采数据 | 大规模 | 团队内部采集的真实场景动作 |
2.2 数据清洗:去掉"坐椅子"和"游泳"
关键预处理步骤: 1. 过滤:去掉与机器人无关的动作(坐椅子、游泳、爬楼梯)——这些动作对机器人来说是不可能任务或无需任务 2. 重定向:将不同骨架格式统一映射到29自由度Unitree-G1关节空间 3. 时间拉伸:通过均匀加速/减速实现5倍数据扩充(同一个动作,快放、慢放、正常放都算不同的训练样本)
最终语料:20亿帧G1重定向运动token。
---
3. 谐波运动嵌入(HME):给动作做"频谱分析"
20亿帧数据太多了,直接训练一个模型覆盖所有动作?不行。传统方法会陷入长尾分布陷阱:常见动作(走路、跑步)被过度学习,罕见动作(空翻、武术)被忽略。
清华团队提出Harmonic Motion Embedding(HME)——一种从动作数据本身提取的周期性频谱特征。
3.1 HME提取流程
1. 在不同数据分区上训练周期性自编码器(Periodic Autoencoder) 2. 从每个动作序列提取逐关节的周期性振幅和频率 3. 聚合所有关节的谐波特征的均值和标准差 → 得到HME向量 4. 用K-Means聚类,将20亿帧数据分成约300个动作簇
每个簇包含约1,000-2,000个序列,簇内动作高度相似(如都是"快速踢腿"),簇间覆盖全局运动分布。
3.2 HME的意义
HME的巧妙之处在于:它不依赖动作标签(如"走路""跳舞"),而是直接从动作的动力学特征(频率、振幅、相位)进行聚类。这意味着:
- 一个从未见过的动作(如某种新舞蹈)可以被自动归类到相似的已有簇
- 300个RL专家各自精通一个动作簇,形成动作专家先验
- 蒸馏阶段,Transformer学习的是"如何调用这些专家的知识",而不是记忆每个动作
4. 300个RL专家:从"通才"到"专才"的蒸馏哲学
4.1 两阶段训练:先专家,后统一
Humanoid-GPT采用两阶段蒸馏策略:
阶段一:训练300个RL动作专家
- 每个专家用PPO(近端策略优化)训练,只负责一个动作簇
- 状态空间:关节位置/速度、根角速度、投影重力、前一动作
- 动作空间:逐关节PD控制器目标值
- 奖励函数:关键点级(keypoint-level)——位置+旋转+速度+惩罚项
- 300个专家各自生成高质量轨迹
- 用DAgger(Dataset Aggregation)算法,将专家的"示范"蒸馏到一个统一的GPT风格Transformer中
- 损失函数:SmoothL1Loss,在H个时间步上并行监督
4.2 奖励函数设计
关键点级奖励函数(Keypoint-level Reward)非常精细:
| 奖励项 | 权重 | 说明 |
|---|---|---|
| 下肢关键点 | 1.5× | 站立和平衡更关键 |
| 上肢关键点 | 0.75× | 手臂动作容错率更高 |
| 位置误差 | α_pos=1.0 | 绝对位置匹配 |
| 旋转误差 | α_rot=2.0 | 姿态方向匹配(权重最高) |
| 速度误差 | α_vel=0.03 | 运动流畅度 |
4.3 域随机化:让专家在"地狱模式"训练
每个PPO专家训练时都经历极端域随机化:
| 类别 | 随机化范围 |
|---|---|
| 地形摩擦 | 0.3-2.0(冰面到砂纸) |
| 地形高度 | 最大0.3m的随机起伏 |
| 外力扰动 | 每5-10秒随机推一把 |
| 关节摩擦 | 0.5-2.0倍 |
| 质心偏移 | ±0.15m |
| 躯干质量 | -3kg到+6kg |
---
5. GPT风格因果Transformer:把运动当成语言生成
5.1 架构设计
Humanoid-GPT的核心架构是一个GPT风格的因果Transformer:
| 组件 | 规格 |
|---|---|
| 注意力机制 | 因果(masked)时间注意力 |
| 输入 | 本体感知状态s_t + 目标参考姿态q^ref_t |
| 历史长度H | 32帧(默认),可扩展至64帧 |
| 输出 | 逐关节PD目标动作 |
| 训练方式 | 并行DAgger监督,单前向传播多时间步 |
5.2 模型缩放
团队测试了三种规模:
| 模型 | 层数 | 隐藏层 | 注意力头 | 参数量 | 每步计算量 |
|---|---|---|---|---|---|
| Humanoid-GPT-S | 12 | 192 | 3 | 5.38M | 10.98 MFLOPs |
| Humanoid-GPT-B | 12 | 384 | 6 | 21.37M | 43.18 MFLOPs |
| Humanoid-GPT-L | 12 | 768 | 12 | 85.21M | 171.30 MFLOPs |
---
6. Scaling Law的首次系统验证:Transformer vs MLP/TCN
这是论文最硬核的发现之一。团队系统比较了三种架构在不同数据量和模型规模下的表现:
6.1 数据Scaling(2M → 20M → 200M → 2B)
| 架构 | 2M → 2B 趋势 |
|---|---|
| Transformer | 近线性提升,200M→2B略有收益递减 |
| MLP | 快速饱和,200M→2B边际收益极小 |
| TCN | 快速饱和,200M→2B边际收益极小 |
6.2 模型Scaling(Small → Large)
| 架构 | 小数据(2M) | 大数据(2B) |
|---|---|---|
| Transformer | 平稳提升 | 持续提升 |
| MLP | 大模型更差(过拟合) | 大模型略好但饱和 |
| TCN | 大模型更差(过拟合) | 大模型略好但饱和 |
这个发现直接验证了团队的假设:机器人控制确实是一种"语言",遵循和NLP相同的Scaling Law。
---
7. 零样本追踪:从未见过的舞蹈,机器人直接跳
7.1 仿真测试集(AMASS-test)
在训练时未见过的动作上,Humanoid-GPT展现出强大的零样本能力:
与基线对比(表2,Humanoid-GPT-L vs 最佳基线):
| 指标 | Humanoid-GPT-L | 最佳MLP | 最佳TCN | 优势 |
|---|---|---|---|---|
| 成功率(SR) | 89.35% | 88.15% | 89.05% | 略胜或持平 |
| 关节位置误差(MPJPE) | 0.0732 | 0.0832 | 0.0738 | 显著优于MLP |
| 关节速度误差(MPJVE) | 0.5232 | 0.5285 | 0.5262 | 最优 |
| 根速度误差(RootVelErr) | 0.1935 | 0.1875 | 0.1948 | 接近最优 |
| 关键点位置误差(MPKPE) | 55.15mm | 56.82mm | 56.15mm | 最优 |
7.2 真实世界零样本动作
论文展示的真实世界测试(零样本,无微调):
舞蹈类:
- "Can Do Can Go!"(日系活力舞)
- "Gokuraku Joudo"(极乐净土)
- "HuoYuanJia/Fearless"(霍元甲/武术风格)
- "PokerFace"(Lady Gaga风格)
- "Old Town Road"(乡村风)
- "Michael Jackson Dance"(太空步)
- Boxing(拳击)
- Chinese Kungfu(中国功夫)
- Play Basketball(打篮球)
- Single Leg Jump(单腿跳)
- Turn over, Get up, Crouch down, Reaching, Bend over, Squatting, Stepping, Turning, Leaning
- Help with moving(帮人类搬箱子)
- Hold box(持箱)
---
8. 真机部署:1.5ms延迟,单卡4090
8.1 部署规格
| 项目 | 参数 |
|---|---|
| 推理延迟 | <1.5ms(单次前向传播) |
| 硬件 | 单张NVIDIA RTX 4090 |
| 控制频率 | 50Hz(每20ms一次控制循环) |
| 物理引擎 | MuJoCo |
| 机器人平台 | 29自由度 Unitree-G1 |
8.2 计算资源总览
| 阶段 | 硬件 | GPU小时 | 占比 |
|---|---|---|---|
| PPO专家训练(~384个) | RTX 4090 | 12,000 | 75% |
| 蒸馏(S/B/L) | H100 | 3,000 | 25% |
| 总计 | — | 15,000 GPU小时 | 100% |
---
9. 核心洞察:为什么Humanoid-GPT能成功?
9.1 三大技术创新
1. HME(谐波运动嵌入):把动作从"空间域"转换到"频域",用周期性特征自动聚类,无需人工标注动作类别 2. GPT风格因果Transformer:把运动控制视为自回归生成问题,利用位置不变的时间预测实现稳定输出 3. 两阶段蒸馏:先训练300个"专才"RL专家,再蒸馏成"通才"Transformer,兼顾专业性和泛化性
9.2 Scaling Law的验证意义
这是首次在具身智能领域系统验证Scaling Law:
- 数据Scaling:Transformer在2M→2B数据上持续改进,MLP/TCN在200M就饱和
- 模型Scaling:Transformer随模型增大持续提升,MLP/TCN在小数据上更大更差
- 交叉验证:不同机器人平台、不同动作类型都遵循同一规律
9.3 与ChatGPT的类比
| 维度 | ChatGPT | Humanoid-GPT |
|---|---|---|
| 数据 | 互联网文本 | 20亿帧运动数据 |
| 架构 | GPT-3/4 Transformer | GPT风格因果Transformer |
| 预训练 | 自回归语言建模 | 自回归动作生成 |
| 涌现能力 | 推理、代码、翻译 | 零样本追踪、舞蹈、武术 |
| 微调 | 指令微调(RLHF) | DAgger蒸馏 |
| 核心思想 | 语言是一种可学习的模式 | 运动也是一种可学习的模式 |
10. 局限与未来
10.1 当前局限
1. 仅支持29自由度:Unitree-G1的关节配置,迁移到更高自由度机器人(如手指抓取)需要重新训练 2. 需要重定向:新动作必须能映射到G1关节空间,不能直接处理原始视频 3. 无视觉输入:纯本体感知(proprioceptive)控制,没有视觉-运动闭环 4. 计算资源密集:15,000 GPU小时的训练成本,对学术团队是门槛
10.2 未来方向
1. 视觉-运动融合:加入摄像头输入,实现"看到什么动作就学什么动作" 2. 多模态控制:语音指令→动作生成("跳个芭蕾"→机器人跳舞) 3. 在线学习:部署后持续从交互中学习,而非固定预训练权重 4. 跨机器人迁移:同一模型控制不同构型的人形机器人
---
11. 结论:具身智能的GPT-1时刻
Humanoid-GPT不是终点,而是起点。
它证明了:
- 运动数据可以像文本一样被"预训练"
- Transformer的Scaling Law在物理世界同样成立
- 零样本泛化不是NLP的专利,机器人也能做到
但至少,它证明了这条路是通的。
---
> "我们证明,一个在大规模多样化运动语料上预训练的单一Transformer模型,能够在零样本的情况下,追踪任意人类运动——无需任务特定微调,无需实时优化,无需手工设计特征。" > —— Humanoid-GPT作者团队
---
参考论文: Qi, Z., Chen, X., Wang, J., Lin, C., Lian, Y., Zhang, Z., Zhang, W., Yu, X., Wang, H., & Yi, L. (2026). *Humanoid Generative Pre-Training for Zero-Shot Motion Tracking*. Tsinghua University, Galbot Inc., Shanghai Jiao Tong University, Peking University, Shanghai Qi Zhi Institute.
#具身智能 #人形机器人 #清华大学 #ScalingLaw #零样本泛化 #运动控制 #GPT #Transformer #强化学习 #谐波运动嵌入