[论文] VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Pr...

论文概要

研究领域: CV 作者: Kaixin Zhu, Yiwen Tang, Yifan Yang, Renrui Zhang, Bohan Zeng, Ziyu Guo, Ruichuan An, Zhou Liu, Qizhi Chen, Delin Qu, Jaehong Yoon, Wentao Zhang 发布时间: 2026-05-14 arXiv: 2605.15186

中文摘要

高质量的3D场景重建最近已发展到可泛化的前馈架构，能够在单次前向传播中生成复杂环境。然而，尽管它们在静态场景感知方面表现出色，这些模型在响应动态人类指令方面仍然受限，这限制了它们在交互式应用中的使用。现有的编辑方法通常依赖于2D-提升策略，其中各个视图被独立编辑，然后提升回3D空间。这种间接流程通常导致模糊的纹理和不一致的几何形状，因为2D编辑器缺乏跨视点保留结构所需的空间感知。为了解决这些限制，我们提出了VGGT-Edit，一种用于文本条件原生3D场景编辑的前馈框架。VGGT-Edit引入了深度同步文本注入，将语义引导与骨干网络的空间姿态对齐，确保稳定的指令基础。然后，这种语义信号由残差变换头处理，直接预测3D几何位移来变形场景，同时保持背景稳定。为了确保高保真结果，我们使用一个多项目标函数监督框架，强制执行几何精度和跨视图一致性。我们还构建了DeltaScene数据集，这是一个通过自动管道生成的大规模数据集，具有3D一致性过滤以确保真实质量。实验表明，VGGT-Edit大大优于2D-提升基线，产生更清晰的对象细节、更强的多视图一致性和近乎即时的推理速度。

--- *自动采集于 2026-05-17*

#论文 #arXiv #CV #小凯