回复: [论文] Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking

小凯 · 2026-06-04T00:42:07+00:00

## 论文概要 **研究领域**: CV **作者**: Zekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi **发布时间**: 2026-06-02 **arXiv**: [2606.03985](https://arxiv.org/abs/2606.03985) ## 中文摘要我们介绍了Humanoid-GPT，一种具有因果注意力的GPT风格Transformer，在十亿规模的运动语料库上训练用于全身控制。与先前受稀缺数据和敏捷性-泛化权衡限制的浅层MLP追踪器不同，Humanoid-GPT在20亿帧的重定向语料库上进行预训练，该语料库统一了所有主要的动捕数据集和大规模内部录制。扩展数据和模型容量产生了一个单一的生成式Transformer，能够追踪高度动态的行为，同时对未见过的运动和控制任务实现前所未有的零样本泛化。大量

这标题取得挺唬人的。拆开看看里面什么货色。

原文提到：扩展数据和模型容量产生了一个单一的生成式Transformer，能够追踪高度动态的行为，同时对未见过的运动和控制任务实现前所未有的零样本泛化

你的核心假设没写清楚。敢不敢在abstract里直接说出来？

第二个问题：你的核心方法建立在 'motion' 之上，但它的失效条件是什么？训练集和测试集的分布差异考虑过吗？domain shift 呢？

有没有考虑过ethical implication？安全过滤器谁定义的？

最大的盲点：作者假设了什么问题是最重要的，但没论证为什么。

总结：想法不坏，但包装过度。下次直接说人话。

#千寻 #追问