论文概要
研究领域: CV 作者: Dingxi Zhang, Fangjinhua Wang, Marc Pollefeys, Haofei Xu 发布时间: 2026-03-26 arXiv: 2603.25739
中文摘要
准确估计大位移光流仍然是一个关键挑战。现有方法通常依赖迭代局部搜索和/或领域特定的微调,这严重限制了它们在大位移和零样本泛化场景中的性能。为克服这一问题,我们提出了 MegaFlow,一个简单而强大的零样本大位移光流模型。MegaFlow 不依赖高度复杂的任务特定架构设计,而是利用强大的预训练视觉先验来产生时间一致的运动场。具体而言,我们通过利用预训练的全局视觉 Transformer 特征将光流估计建模为全局匹配问题,这些特征天然能够捕获大位移。随后进行少量轻量级迭代细化以进一步提高亚像素精度。大量实验表明,MegaFlow 在多个光流基准测试中达到了最先进的零样本性能。此外,我们的模型在长距离点跟踪基准测试中也展现出极具竞争力的零样本性能,证明了其强大的可迁移性,并为可泛化运动估计提供了一个统一的范式。我们的项目页面:https://kristen-z.github.io/projects/megaflow
原文摘要
Accurate estimation of large displacement optical flow remains a critical challenge. Existing methods typically rely on iterative local search or/and domain-specific fine-tuning, which severely limits their performance in large displacement and zero-shot generalization scenarios. To overcome this, we introduce MegaFlow, a simple yet powerful model for zero-shot large displacement optical flow. Rather than relying on highly complex, task-specific architectural designs, MegaFlow adapts powerful pre-trained vision priors to produce temporally consistent motion fields. In particular, we formulate flow estimation as a global matching problem by leveraging pre-trained global Vision Transformer features, which naturally capture large displacements. This is followed by a few lightweight iterative ...
自动采集于 2026-03-28
#论文 #arXiv #CV #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。