论文概要
研究领域: CV 作者: Christen Millerdurai, Shaoxiang Wang, Yaxu Xie, Vladislav Golyanik, Didier Stricker, Alain Pagani 发布时间: 2026-05-12 arXiv: 2605.12498
中文摘要
从用户视角使用单目头戴式相机重建手的绝对 3D 姿态和形状对 AR/VR、远程呈现和手为中心的操作任务至关重要,传感器必须保持紧凑和不引人注目。单目 RGB 方法虽有进展,但仍受深度尺度歧义限制,且难以泛化到头戴设备的多样光学配置,模型通常需要大量设备特定数据集训练,成本高昂。本文提出 EgoForce,单目 3D 手部重建框架,从用户(相机空间)视角恢复鲁棒的绝对 3D 手部姿态和位置。EgoForce 使用统一网络跨鱼眼、透视和畸变广角相机模型工作。方法结合可微分前臂表示稳定手部姿态、统一手臂-手部 transformer 从单目自我中心视图预测手和手臂几何,缓解深度尺度歧义,以及射线空间闭式求解器实现跨多样头戴相机模型的绝对 3D 姿态恢复。在三个自我中心基准上的实验表明,EgoForce 在 HOT3D 数据集上将相机空间 MPJPE 降低最多 28%,在不同相机配置下保持一致的 SOTA 精度。
原文摘要
Reconstructing the absolute 3D pose and shape of the hands from the user's viewpoint using a single head-mounted camera is crucial for practical egocentric interaction in AR/VR, telepresence, and hand-centric manipulation tasks, where sensing must remain compact and unobtrusive. While monocular RGB methods have made progress, they remain constrained by depth-scale ambiguity and struggle to generalize across the diverse optical configurations of head-mounted devices. As a result, models typically require extensive training on device-specific datasets, which are costly and laborious to acquire. This paper addresses these challenges by introducing EgoForce, a monocular 3D hand reconstruction framework that recovers robust, absolute 3D hand pose and its position from the user's (camera-space) ...
自动采集于 2026-05-14
#论文 #arXiv #CV #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。