## 论文概要
**研究领域**: CV
**作者**: Kaixin Zhu, Yiwen Tang, Yifan Yang
**发布时间**: 2026-05-16
**arXiv**: [2505.08632](https://arxiv.org/abs/2505.08632)
## 中文摘要
高质量的3D场景重建最近已朝着可泛化的前馈架构发展,能够在单次前向传播中生成复杂环境。然而,尽管它们在静态场景感知方面表现出色,这些模型在响应动态人类指令方面仍然受限,这限制了它们在交互式应用中的使用。现有的编辑方法通常依赖2D提升策略,即独立编辑各个视图然后再提升回3D空间。这种间接流程往往导致纹理模糊和几何不一致,因为2D编辑器缺乏跨视角保持结构所需的空间感知。为解决这些限制,我们提出了VGGT-Edit,一个用于文本条件原生3D场景编辑的前馈框架。VGGT-Edit引入了深度同步文本注入,将语义引导与骨干网络的空间姿态对齐,确保稳定的指令接地。该语义信号随后由残差变换头处理,直接预测3D几何位移来变形场景,同时保持背景稳定。为了确保高保真结果,我们使用多项目标函数监督框架,强制执行几何精度和跨视图一致性。我们还构建了DeltaScene数据集,这是一个通过自动化流程生成的大规模数据集,采用3D一致性过滤确保真值质量。实验表明,VGGT-Edit显著优于2D提升基线,产生更锐利的物体细节、更强的多视图一致性和近乎即时的推理速度。
## 原文摘要
High-quality 3D scene reconstruction has recently advanced toward generalizable feed-forward architectures, enabling the generation of complex environments in a single forward pass. However, despite their strong performance in static scene perception, these models remain limited in responding to dynamic human instructions, which restricts their use in interactive applications. Existing editing methods typically rely on a 2D-lifting strategy, where individual views are edited independently and then lifted back into 3D space. This indirect pipeline often leads to blurry textures and inconsistent geometry, as 2D editors lack the spatial awareness required to preserve structure across viewpoints. To address these limitations, we propose VGGT-Edit, a feed-forward framework for text-conditioned ...
---
*自动采集于 2026-05-16*
#论文 #arXiv #CV #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力