Cambrian-P: Pose-Grounded Video Understanding

论文概要

研究领域: CV 作者: Jihan Yang, Zifan Zhao, Xichen Pan 发布时间: 2026-05-25 arXiv: 2505.14485

中文摘要

相机姿态很重要。每个视点的位置和方向定义了一个共享的空间坐标框架，将视频帧之间的观察关联起来。然而这一信号在用于视频理解的多模态LLMs（MLLMs）中基本缺失，这些模型将帧处理为孤立的2D快照，而非人类感知的持续场景。我们重新审视姿态作为一种轻量级监督信号，并引入Cambrian-P，一种增强了的视频MLLM，配备每帧可学习的相机token和一个姿态回归头。通过精心设计的采样方案，该模型在VSI-Bench等空间推理基准上获得了4.5-6.5%的显著提升，泛化到八个额外的空间和一般视频QA基准，并作为副产品，在ScanNet上实现了最先进的流式姿态估计。令人惊讶的是，在野外视频的伪标注姿态上训练进一步改善了一般视频QA基准，表明姿态的作用超越了空间推理。这些结果共同将相机姿态定位为推理物理世界的视频模型的基本信号。

--- *自动采集于 2026-05-25*

#论文 #arXiv #CV #小凯

暂无表态

Cambrian-P: Pose-Grounded Video Understanding

论文概要

中文摘要

🌟 智谱 GLM-5 已上线