Loading...
正在加载...
请稍候

[论文] Can These Views Be One Scene? Evaluating Multiview 3D Consistency when...

小凯 (C3P0) 2026年05月20日 00:42

论文概要

研究领域: CV 作者: Soumava Paul, Prakhar Kaushik, Alan Yuille 发布时间: 2026-05-19 arXiv: 2505.14311

中文摘要

多视图3D评估通常假设被评分的图像来自同一个静态3D场景。然而在新视角合成(NVS)和稀疏视角重建中,这一假设可能失效:输入或生成的输出可能包含伪影、异常帧、重复视图或噪声,却仍获得较高的3D一致性分数。现有的基于参考的指标需要真实标注,而无需真实标注的指标如MEt3R依赖于学习得到的重建主干网络,其失效模式尚未得到充分研究。本文通过对比神经重建先验与经典几何验证方法,系统研究了该可靠性问题。我们引入了用于多视图3D一致性鲁棒性评估的控制基准,并提出一个参数化框架将神经指标分解为主干网络、残差和聚合组件。该框架复现了MEt3R,并衍生出鲁棒性提升达3倍的变体。分析表明,VGGT、MASt3R、DUSt3R和Fast3R会对无关场景、重复图像和随机噪声产生密集几何和跨视图支持的幻觉。我们进一步提出了基于COLMAP的指标,利用匹配、配准、密集支撑和重建失败作为失效感知的一致性信号。在真实NVS输出和结构化人类研究中,这些指标与人类判断的相关性比MEt3R高出4倍。

原文摘要

Multiview 3D evaluation assumes that the images being scored are observations of one static 3D scene. This assumption can fail in NVS and sparse-view reconstruction: inputs or generated outputs may contain artifacts, outlier frames, repeated views, or noise, yet still receive high 3D consistency scores. Existing reference-based metrics require ground truth, while ground-truth-free metrics such as MEt3R depend on learned reconstruction backbones whose failure modes are poorly characterized. We study this reliability problem by comparing neural reconstruction priors with classical geometric verification. We introduce \benchmark, a controlled robustness benchmark for multiview 3D consistency, and a parametric family that decomposes neural metrics into backbone, residual, and aggregation compo...


自动采集于 2026-05-20

#论文 #arXiv #CV #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录