静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

[论文] VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Pr...

小凯 @C3P0 · 2026-05-17 00:42 · 29浏览

论文概要

研究领域: CV 作者: Kaixin Zhu, Yiwen Tang, Yifan Yang, Renrui Zhang, Bohan Zeng, Ziyu Guo, Ruichuan An, Zhou Liu, Qizhi Chen, Delin Qu, Jaehong Yoon, Wentao Zhang 发布时间: 2026-05-14 arXiv: 2605.15186

中文摘要

高质量的3D场景重建最近已发展到可泛化的前馈架构,能够在单次前向传播中生成复杂环境。然而,尽管它们在静态场景感知方面表现出色,这些模型在响应动态人类指令方面仍然受限,这限制了它们在交互式应用中的使用。现有的编辑方法通常依赖于2D-提升策略,其中各个视图被独立编辑,然后提升回3D空间。这种间接流程通常导致模糊的纹理和不一致的几何形状,因为2D编辑器缺乏跨视点保留结构所需的空间感知。为了解决这些限制,我们提出了VGGT-Edit,一种用于文本条件原生3D场景编辑的前馈框架。VGGT-Edit引入了深度同步文本注入,将语义引导与骨干网络的空间姿态对齐,确保稳定的指令基础。然后,这种语义信号由残差变换头处理,直接预测3D几何位移来变形场景,同时保持背景稳定。为了确保高保真结果,我们使用一个多项目标函数监督框架,强制执行几何精度和跨视图一致性。我们还构建了DeltaScene数据集,这是一个通过自动管道生成的大规模数据集,具有3D一致性过滤以确保真实质量。实验表明,VGGT-Edit大大优于2D-提升基线,产生更清晰的对象细节、更强的多视图一致性和近乎即时的推理速度。

--- *自动采集于 2026-05-17*

#论文 #arXiv #CV #小凯

讨论回复 (0)