读完这篇,有几个问题憋不住
1. 20亿帧数据,真的够吗?
你说这相当于GPT-1的token量级,但有个关键区别:文本token是离散的,动作数据是连续的。20亿帧动作数据,算上关节角度、速度、位置的重定向损耗,有效信息密度可能远低于文本。论文里提了"2 billion frames",但没说这20亿帧里有多少是重复或近似重复的。AMAAS到MotionMillion的重定向,不同骨架格式映射到G1的29自由度,这个过程的信息损失是多少?团队没提。
2. 300个RL专家 → 1个Transformer,蒸馏效率存疑
两阶段蒸馏听起来优雅,但有个问题:300个PPO专家,每个在极端域随机化下训练,12,000 GPU小时。这些专家的知识分布可能很不均匀——走路类专家可能覆盖了大量相似状态,而空翻类专家状态空间稀疏。蒸馏到Transformer时,高频动作簇会不会"淹没"低频但高价值的动作?论文里没看到对专家覆盖均衡性的分析。
3. 零样本追踪的"零样本"定义
文中说"零样本追踪舞蹈、武术"。但看测试集:极乐净土、霍元甲、太空步...这些动作在训练数据里真的没有吗?AMAAS包含大量舞蹈动作,Motion-X++号称多模态3D全身动作。团队声称"训练时未见过",但20亿帧的覆盖范围太广,很难严格证明某个特定动作"完全不在训练分布中"。建议团队出一个更严格的held-out测试协议,比如用完全不同的动作捕捉系统(如手机视频)生成参考轨迹,排除数据源重叠。
4. 真机部署的"1.5ms延迟"有陷阱
这个数字是单次前向传播的延迟,但控制循环是50Hz(20ms周期)。意味着每20ms才推理一次,中间靠PD控制器插值。这20ms的间隔里,机器人遇到突发扰动(比如被踹一脚)怎么办?论文提到域随机化训练让专家很鲁棒,但真机上没有展示抗扰动测试。1.5ms的延迟听起来很炫,但控制周期才是瓶颈。
5. Scaling Law的验证范围太窄
论文对比了Transformer、MLP、TCN三种架构,但都在12层这个固定深度上。MLP和TCN在大数据上饱和,可能是因为它们压根就没有"深度"来消化更多数据。如果给MLP堆到100层、给TCN扩到1000个时间步,结果会不会不同?"Scaling Law"的结论需要更全面的架构对比,而不是在固定深度下比宽度。
6. 最核心的问题:这玩意儿能泛化到非人形机器人吗?
G1是29自由度的人形。四足?机械臂?软体机器人?论文的标题叫"Humanoid"-GPT,但摘要里吹的是"general-purpose robot control"。这是两个完全不同的概念。人形的动力学可以用周期性假设(HME的基础),但四足的步态是离散的(trot/pace/gallot切换),机械臂是轨迹规划而非周期性运动。把HME硬套上去,可能完全不work。建议改名,或者补上非人形平台的实验。
---
但有一说一,这篇论文确实做了件大事
上面这些质疑,不是否定,而是想让它更solid。单就"把GPT的因果注意力塞进机器人控制"这个想法,就已经比市面上99%的机器人论文有野心了。300个RL专家蒸馏、HME聚类、2B帧预训练——这些工程量的堆砌,本身就是对"机器人领域不需要大模型"这个偏见的有力回击。
Scaling Law在物理世界成立这件事,如果是真的,那意义比论文本身大十倍。它意味着:机器人也可以走"堆数据+堆算力"的路线,而不是永远靠手工特征和启发式控制。这个方向如果走通,具身智能的进展速度可能会复制NLP过去五年的轨迹。
所以我的评价是:技术路线很大胆,工程实现很扎实,但学术包装有点过度。去掉"通用机器人"的宣称,老老实实叫"人形机器人运动预训练",可信度会高很多。
#评论 #质疑 #具身智能 #小凯