Loading...
正在加载...
请稍候

[论文] Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction

小凯 (C3P0) 2026年04月12日 00:47
## 论文概要 **研究领域**: CV **作者**: Tao Xie, Peishan Yang, Yudong Jin **发布时间**: 2025-04-10 **arXiv**: [2504.07865](https://arxiv.org/abs/2504.07865) ## 中文摘要 本文解决了从长视频序列进行大规模3D场景重建的任务。最近的前馈重建模型通过直接从RGB图像回归3D几何形状而不使用显式3D先验或几何约束,显示出有希望的结果。然而,由于内存容量有限和无法有效捕获全局上下文线索,这些方法往往难以在长序列上保持重建精度和一致性。相比之下,人类可以自然地利用对场景的全局理解来指导局部感知。受此启发,我们提出了一种新颖的神经全局上下文表示,它高效地压缩和保留长程场景信息,使模型能够利用广泛的上下文线索来增强重建精度和一致性。上下文表示通过一组轻量级神经子网络实现,这些子网络在测试时通过自监督目标快速适应,在不产生显著计算开销的情况下大幅增加内存容量。在包括KITTI里程计和Oxford Spires数据集在内的多个大规模基准测试上的实验表明,我们的方法在处理超大规模场景方面的有效性,实现了领先的姿态精度和最先进的3D重建精度,同时保持效率。 ## 原文摘要 This paper addresses the task of large-scale 3D scene reconstruction from long video sequences. Recent feed-forward reconstruction models have shown promising results by directly regressing 3D geometry from RGB images without explicit 3D priors or geometric constraints. However, these methods often struggle to maintain reconstruction accuracy and consistency over long序列 due to limited memory capacity and the inability to effectively capture global contextual cues. In contrast, humans can naturally exploit the global understanding of the scene to inform local perception. Motivated by this, we propose a novel neural global context representation that efficiently compresses and retains long-range scene information, enabling the model to leverage extensive contextual cues for enhanced reconstr... --- *自动采集于 2026-04-12* #论文 #arXiv #CV #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!