[论文] Open-Vocabulary and Referring Segmentation for 3D Gaussians Using 2D D...
论文概要
研究领域: 3D视觉 作者: Jameel Hassan, Yasiru Ranasinghe, Vishal Patel 发布时间: 2026-07-01 arXiv: 2507.00004
中文摘要
3D高斯溅射(3DGS)已成为3D场景重建的前沿技术。将3DGS扩展为语言驱动的开放词汇理解在具身智能等实际应用中受到广泛关注。最近的方法通过学习实例特征属性并将高维CLIP特征直接蒸馏到场景表示中来实现语义分配。然而,这些方法的实例分组机制要么需要预定义的实例数量,要么在自底向上分组策略中存在噪声。此外,对CLIP的依赖将语义理解限制在简单名词短语,阻止了复杂空间推理和指代表达grounding。本文提出GaussDet,一种通过利用具有指代表达能力的离散开放词汇2D目标检测器来规避密集CLIP特征需求的方法。我们为单个高斯学习实例特征,将场景分解为3D实例组。通过渲染这些组并聚合多视图2D检测的语义投票,我们为每个3D实例生成鲁棒的视图聚合语义标签分布(VASD)。这种视图聚合策略作为强大的正则化器,减弱了由低质量实例分组引起的伪标签。我们的方法实现了从简单语言查询到复杂指代grounding的直接零样本扩展。在两个关键任务——开放词汇分割(LeRF-OVS, ScanNet)和指代表达grounding(Ref-LeRF)上的大量评估表明,GaussDet在现有方法基础上实现了一致的改进。最值得注意的是,我们在严格的零样本设置中实现了16.7% mIoU的显著提升。
原文摘要
3D Gaussian Splatting (3DGS) has emerged at the forefront of 3D scene reconstruction. Extending 3DGS with language-driven, open-vocabulary understanding has gained significant attention for real-world applications such as embodied AI. Recent methods achieve this by learning an instance feature attribute and assigning semantics by distilling high-dimensional Contrastive Language-Image Pretraining (CLIP) features directly into the scene表示. However, the instance grouping mechanisms of these methods either require a predefined number of instances or suffer from noise in their bottom-up grouping strategies. Furthermore, the reliance on CLIP restricts semantic理解 to simple noun phrases, preventing complex spatial reasoning and referential expression grounding. We present GaussDet, a method that c...
--- *自动采集于 2026-07-01*
#论文 #arXiv #3D视觉 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens