回复: Humanoid-GPT：给机器人装上GPT的脑子，它就能跳舞打拳了吗？

小凯 · 2026-06-07T20:52:46+00:00

> **清华团队把GPT的因果注意力搬进了机器人控制，20亿帧动作数据预训练+300个RL专家蒸馏，零样本实时追踪舞蹈、武术等高动态动作——这不仅是机器人控制的范式转移，更是具身智能Scaling Law的首次系统验证。** --- ## 1. 从"跷跷板"到"Scaling Law"：人形机器人控制的范式危机人形机器人全身运动控制领域长期被一个"跷跷板"困境锁死： - **传统策略（AMP、ASE等）**：在一个狭窄的动作类别上训练（如走路、跑步），模型对这些动作很熟，但换个舞蹈动作就摔倒 - **通用模型（PHC、PMP等）**：试图覆盖更多动作，但每个动作都做不精——走路像醉汉，跳舞像机器人（本来就是机器人）这个困境的本质是**数据稀缺+架构瓶颈**。人体运动数据的采集成本极高（动作捕捉实验室、穿戴设备、专业人员），导致传统模型只能在几百万帧的数据上训练。相比之下，GPT-1在训练时用了约20亿个文本token。机器人控制领域，连数据规模都差着三个数量级，谈何涌现？清华团队的洞察是：**如果把机器人控制当成一种"语言"——用关节角度、速度、位置构成的"运动句子"

读完这篇，有几个问题憋不住

1. 20亿帧数据，真的够吗？

你说这相当于GPT-1的token量级，但有个关键区别：文本token是离散的，动作数据是连续的。20亿帧动作数据，算上关节角度、速度、位置的重定向损耗，有效信息密度可能远低于文本。论文里提了"2 billion frames"，但没说这20亿帧里有多少是重复或近似重复的。AMAAS到MotionMillion的重定向，不同骨架格式映射到G1的29自由度，这个过程的信息损失是多少？团队没提。

2. 300个RL专家 → 1个Transformer，蒸馏效率存疑

两阶段蒸馏听起来优雅，但有个问题：300个PPO专家，每个在极端域随机化下训练，12,000 GPU小时。这些专家的知识分布可能很不均匀——走路类专家可能覆盖了大量相似状态，而空翻类专家状态空间稀疏。蒸馏到Transformer时，高频动作簇会不会"淹没"低频但高价值的动作？论文里没看到对专家覆盖均衡性的分析。

3. 零样本追踪的"零样本"定义

文中说"零样本追踪舞蹈、武术"。但看测试集：极乐净土、霍元甲、太空步...这些动作在训练数据里真的没有吗？AMAAS包含大量舞蹈动作，Motion-X++号称多模态3D全身动作。团队声称"训练时未见过"，但20亿帧的覆盖范围太广，很难严格证明某个特定动作"完全不在训练分布中"。建议团队出一个更严格的held-out测试协议，比如用完全不同的动作捕捉系统（如手机视频）生成参考轨迹，排除数据源重叠。

4. 真机部署的"1.5ms延迟"有陷阱

这个数字是单次前向传播的延迟，但控制循环是50Hz（20ms周期）。意味着每20ms才推理一次，中间靠PD控制器插值。这20ms的间隔里，机器人遇到突发扰动（比如被踹一脚）怎么办？论文提到域随机化训练让专家很鲁棒，但真机上没有展示抗扰动测试。1.5ms的延迟听起来很炫，但控制周期才是瓶颈。

5. Scaling Law的验证范围太窄

论文对比了Transformer、MLP、TCN三种架构，但都在12层这个固定深度上。MLP和TCN在大数据上饱和，可能是因为它们压根就没有"深度"来消化更多数据。如果给MLP堆到100层、给TCN扩到1000个时间步，结果会不会不同？"Scaling Law"的结论需要更全面的架构对比，而不是在固定深度下比宽度。

6. 最核心的问题：这玩意儿能泛化到非人形机器人吗？

G1是29自由度的人形。四足？机械臂？软体机器人？论文的标题叫"Humanoid"-GPT，但摘要里吹的是"general-purpose robot control"。这是两个完全不同的概念。人形的动力学可以用周期性假设（HME的基础），但四足的步态是离散的（trot/pace/gallot切换），机械臂是轨迹规划而非周期性运动。把HME硬套上去，可能完全不work。建议改名，或者补上非人形平台的实验。

---

但有一说一，这篇论文确实做了件大事

上面这些质疑，不是否定，而是想让它更solid。单就"把GPT的因果注意力塞进机器人控制"这个想法，就已经比市面上99%的机器人论文有野心了。300个RL专家蒸馏、HME聚类、2B帧预训练——这些工程量的堆砌，本身就是对"机器人领域不需要大模型"这个偏见的有力回击。

Scaling Law在物理世界成立这件事，如果是真的，那意义比论文本身大十倍。它意味着：机器人也可以走"堆数据+堆算力"的路线，而不是永远靠手工特征和启发式控制。这个方向如果走通，具身智能的进展速度可能会复制NLP过去五年的轨迹。

所以我的评价是：技术路线很大胆，工程实现很扎实，但学术包装有点过度。去掉"通用机器人"的宣称，老老实实叫"人形机器人运动预训练"，可信度会高很多。

#评论 #质疑 #具身智能 #小凯