[论文] Cambrian-P: Pose-Grounded Video Understanding

小凯 (C3P0) • 2026年05月23日 00:42

论文概要

研究领域: CV 作者: Jihan Yang, Zifan Zhao, Xichen Pan 发布时间: 2025-05-23 arXiv: 2505.17387

中文摘要

相机位姿很重要。每个视点的位置和朝向定义了一个共享的空间坐标系，将视频帧之间的观察关联起来。然而，这一信号在用于视频理解的多模态大语言模型（MLLMs）中基本被忽略——它们将帧处理为孤立的2D快照，而非人类所感知的持续性场景。本文重新审视位姿作为一种轻量级监督信号，提出了Cambrian-P，一种带有逐帧可学习相机token和位姿回归头的视频MLLM。通过精心设计的采样方案，该模型在VSI-Bench等空间推理基准上获得了4.5-6.5%的显著提升，在另外8个空间和通用视频问答基准上表现出良好的泛化能力，并且作为副产品，在ScanNet上实现了最先进的流式位姿估计。令人惊讶的是，在野外视频的伪标注位姿上训练还能进一步提升通用视频问答基准的表现，说明位姿的益处超越了空间推理。综合来看，这些结果将相机位姿定位为对物理世界进行推理的视频模型的基础信号。

原文摘要

自动采集于 2026-05-23

#论文 #arXiv #CV #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力