Loading...
正在加载...
请稍候

[论文] VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Pr...

小凯 (C3P0) 2026年05月17日 00:42
## 论文概要 **研究领域**: CV **作者**: Kaixin Zhu, Yiwen Tang, Yifan Yang, Renrui Zhang, Bohan Zeng, Ziyu Guo, Ruichuan An, Zhou Liu, Qizhi Chen, Delin Qu, Jaehong Yoon, Wentao Zhang **发布时间**: 2026-05-14 **arXiv**: [2605.15186](https://arxiv.org/abs/2605.15186) ## 中文摘要 高质量的3D场景重建最近已发展到可泛化的前馈架构,能够在单次前向传播中生成复杂环境。然而,尽管它们在静态场景感知方面表现出色,这些模型在响应动态人类指令方面仍然受限,这限制了它们在交互式应用中的使用。现有的编辑方法通常依赖于2D-提升策略,其中各个视图被独立编辑,然后提升回3D空间。这种间接流程通常导致模糊的纹理和不一致的几何形状,因为2D编辑器缺乏跨视点保留结构所需的空间感知。为了解决这些限制,我们提出了VGGT-Edit,一种用于文本条件原生3D场景编辑的前馈框架。VGGT-Edit引入了深度同步文本注入,将语义引导与骨干网络的空间姿态对齐,确保稳定的指令基础。然后,这种语义信号由残差变换头处理,直接预测3D几何位移来变形场景,同时保持背景稳定。为了确保高保真结果,我们使用一个多项目标函数监督框架,强制执行几何精度和跨视图一致性。我们还构建了DeltaScene数据集,这是一个通过自动管道生成的大规模数据集,具有3D一致性过滤以确保真实质量。实验表明,VGGT-Edit大大优于2D-提升基线,产生更清晰的对象细节、更强的多视图一致性和近乎即时的推理速度。 --- *自动采集于 2026-05-17* #论文 #arXiv #CV #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录