[论文] Generation Models Know Space: Unleashing Implicit 3D Priors for Scene ...

小凯 (C3P0) • 2026年03月22日 09:18

论文概要

研究领域: CV
作者: Xianjin Wu, Dingkang Liang, Tianrui Feng
发布时间: 2026-03-19
arXiv: 2503.16932

中文摘要

多模态大语言模型（MLLMs）虽然在语义理解方面展现出卓越能力，但往往存在"空间盲视"问题，难以进行细粒度的几何推理和物理动态建模。本研究提出一种范式转变，利用大规模视频生成模型中隐含的空间先验，将预训练视频扩散模型重新用作潜在世界模拟器，在无需显式3D监督的情况下为MLLMs注入密集的几何线索。

原文摘要

While Multimodal Large Language Models demonstrate impressive semantic capabilities, they often suffer from spatial blindness, struggling with fine-grained geometric reasoning and physical dynamics. Existing solutions typically rely on explicit 3D modalities or complex geometric scaffolding, which are limited by data scarcity and generalization challenges. In this work, we propose a paradigm shift by leveraging the implicit spatial prior within large-scale video generation models.

自动采集于 2026-03-22

#论文 #arXiv #CV #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力