## 论文概要
**研究领域**: CV
**作者**: Hao-Yu Hsu, Tianhang Cheng, Jing Wen, Alexander G. Schwing, Shenlong Wang
**发布时间**: 2026-04-23
**arXiv**: [2604.21926](https://arxiv.org/abs/2604.21926)
## 中文摘要
理解人类活动及其周围环境通常依赖于视觉感知,然而相机在隐私、安全、能效和可扩展性方面带来了持续的挑战。我们探索了一种替代方案:无需视觉的4D感知。其目标是纯粹从日常可穿戴传感器重建人体运动和3D场景布局。为此,我们引入了IMU-to-4D,一个重新利用大型语言模型进行非视觉时空人体-场景动态理解的框架。IMU-to-4D使用来自耳机、手表或智能手机等少量惯性传感器的数据,预测详细的4D人体运动以及粗略的场景结构。在多样化的人体-场景数据集上的实验表明,IMU-to-4D比最先进(SoTA)的级联管道产生更连贯和时间上更稳定的结果,表明仅可穿戴运动传感器就可以支持丰富的4D理解。
## 原文摘要
---
*自动采集于 2026-04-27*
#论文 #arXiv #CV #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!