## 论文概要
**研究领域**: CV
**作者**: Zhenyu Wu, Ziyun Wang, Yixuan Wei et al.
**发布时间**: 2026-04-30
**arXiv**: [2604.28173](https://arxiv.org/abs/2604.28173)
## 中文摘要
有效的人类行为建模需要利用人体运动组合性的表征。我们提出一种层次化表征,由捕捉原子关节运动的Action Atoms和由它们的时间组合形成的Action Motifs组成,后者编码在不同整体人类动作中发现的相似身体运动。我们导出A4Mer,一种嵌套潜空间Transformer,以完全自监督方式从人体姿态数据学习这种层次化表征。A4Mer将3D姿态序列分割为可变长度段,并将每段表示为单一潜空间token(Action Atoms)。通过自下而上的表征学习,由这些Action Atoms组成的时间模式——捕捉可重用、语义化的身体运动段的有意义时间跨度——自然涌现(Action Motifs)。A4Mer通过在各自潜空间中的掩码token预测统一前置任务来实现这一点。我们还引入Action Motif数据集(AMD),一个具有完整SMPL标注的大规模多视角人类行为视频数据集。我们创新性地将相机安装在脚部以实现逐帧标注,尽管存在频繁和严重的身体遮挡。实验结果证明了A4Mer提取有意义Action Motifs的有效性,这对包括动作识别、运动预测和运动插值在内的人类行为建模任务带来显著提升。
## 原文摘要
Effective human behavior modeling requires a representation of the human body movement that capitalizes on its compositionality. We propose a hierarchical representation consisting of Action Atoms that capture the atomic joint movements and Action Motifs that are formed by their temporal compositions and encode similar body movements found across different overall human actions. We derive A4Mer, a nested latent Transformer to learn this hierarchical representation from human pose data in a fully...
---
*自动采集于 2026-05-02*
#论文 #arXiv #CV #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!