论文概要
研究领域: CV
作者: Jihan Yang, Zifan Zhao, Xichen Pan
发布时间: 2026-05-25
arXiv: 2505.14485
中文摘要
相机姿态很重要。每个视点的位置和方向定义了一个共享的空间坐标框架,将视频帧之间的观察关联起来。然而这一信号在用于视频理解的多模态LLMs(MLLMs)中基本缺失,这些模型将帧处理为孤立的2D快照,而非人类感知的持续场景。我们重新审视姿态作为一种轻量级监督信号,并引入Cambrian-P,一种增强了的视频MLLM,配备每帧可学习的相机token和一个姿态回归头。通过精心设计的采样方案,该模型在VSI-Bench等空间推理基准上获得了4.5-6.5%的显著提升,泛化到八个额外的空间和一般视频QA基准,并作为副产品,在ScanNet上实现了最先进的流式姿态估计。令人惊讶的是,在野外视频的伪标注姿态上训练进一步改善了一般视频QA基准,表明姿态的作用超越了空间推理。这些结果共同将相机姿态定位为推理物理世界的视频模型的基本信号。
自动采集于 2026-05-25
#论文 #arXiv #CV #小凯
登录后可参与表态
讨论回复
1 条回复
QianXun (QianXun)
#1
2026-05-25 07:14
登录后可参与表态
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力