光流算法最新进展与性能基准综合分析

光流（Optical Flow）作为计算机视觉中的基础问题，其目标是估计图像序列中像素或特征的位移，从而捕捉场景中的运动信息【9†source】。自Lucas-Kanade和Horn-Schunck等经典方法提出以来，光流算法在精度、鲁棒性和应用范围上经历了显著演进。近年来，深度学习的引入以及新数据集的推动，使光流估计在复杂场景下取得了突破性进展。本文将基于现有资料，系统梳理光流算法的发展脉络，重点介绍从经典方法到深度学习模型的演进，并分析主流算法在MPI Sintel、KITTI和Spring等权威基准上的性能表现。

经典光流算法回顾：从局部约束到全局平滑

光流问题的核心在于求解亮度恒常约束（brightness constancy assumption）下的像素位移。由于该约束在每个像素上提供了一个方程但有两个未知数，因此是一个病态问题，需要引入额外假设来求解。经典方法主要分为局部方法和全局方法两大类。

Lucas-Kanade：局部约束 + 小窗口假设

Lucas-Kanade (LK) 方法采用局部约束，假设在一个小窗口内所有像素共享相同的光流。这样，对于窗口内的像素，可以建立一组超定方程，通过最小二乘求解得到该窗口的光流向量。LK方法要求窗口内图像梯度足够丰富（例如角点），否则系数矩阵接近奇异，无法可靠求解（这实质上是“孔径问题”的表现）。其优点是实现简单、计算高效，对局部运动建模直接。然而，LK方法仅适用于小位移，当位移较大时泰勒展开的一阶近似不再准确；对此，通常需要结合图像金字塔实现coarse-to-fine策略，在粗尺度估计大位移，在细尺度精细化结果。此外，LK方法对弱纹理区域和光照变化较为敏感，这是其局限性。

Horn-Schunck：全局平滑约束

Horn-Schunck (HS) 方法则采用全局约束，通过构建一个全局能量函数来同时满足亮度恒常和光流场的平滑性。能量函数包括数据项（亮度恒常误差）和平滑项（光流场梯度的平方和），通过变分法求解能量最小化问题，得到稠密的光流场。HS方法能够缓解孔径问题，在缺乏纹理的区域也能产生连续的流场。然而，其平滑假设在运动边界处往往不成立，导致边界处流场出现模糊。全局方法的另一个挑战是计算复杂度较高，需要迭代求解大型线性系统。尽管如此，HS方法奠定了光流计算的能量最小化框架，其思想影响了后续许多算法。

多尺度/coarse-to-fine策略：应对大位移

无论LK还是HS方法，都要求像素位移足够小以满足线性近似。然而实际视频中常存在大位移运动。为解决这一问题，多尺度（金字塔）coarse-to-fine策略被广泛采用。具体做法是构建图像金字塔，从最粗层开始估计光流，然后将结果上采样并用于warp（变形）下一层的图像，再在更细层继续精细化估计。通过这种由粗到精的逐层估计，可以将大位移问题转化为一系列小位移问题来处理，从而显著提升算法对大运动场景的鲁棒性。这一策略几乎成为现代光流算法的标准组件，无论是传统方法还是深度学习方法都广泛采用。

深度学习光流：从FlowNet到RAFT的演进

传统光流方法依赖手工设计的能量项和迭代优化，而深度学习方法则通过神经网络直接从数据中学习从图像对到光流场的映射。近年来，这一范式取得了巨大成功，涌现出一系列里程碑式的工作。

FlowNet / FlowNet 2.0：端到端学习的开端

FlowNet是最早将卷积神经网络用于光流估计的工作之一。它设计了编码器-解码器架构，通过编码器提取图像特征，解码器逐步恢复光流，并引入了“相关性层”（correlation layer）来计算两帧特征之间的匹配代价。FlowNet证明了深度网络可以直接学习光流，但由于当时数据和模型的限制，其精度相比传统方法并无明显优势。FlowNet 2.0在此基础上进行了改进，通过堆叠多个FlowNet模块、引入数据增强和更长的训练策略，大幅提升了性能，使其在某些基准上接近甚至超越传统方法。FlowNet系列开启了光流估计的端到端学习时代，其提出的网络结构和训练技巧为后续工作奠定了基础。

PWC-Net：金字塔、warping、cost volume的架构

PWC-Net（Pyramidal, Warping, and Cost volume Network）将传统光流的经典思想与深度学习相结合，构建了一个更高效的架构。其核心思想是：1）构建图像金字塔实现coarse-to-fine；2）利用当前估计的光流对第二帧进行warp，使其与第一帧对齐；3）计算warped图像与第一帧的特征cost volume（匹配代价体），作为网络输入；4）通过卷积网络从cost volume中回归光流的残差并更新。PWC-Net的结构设计紧凑而高效，其性能在当时达到了新的高度，成为许多后续工作的基础架构。它的成功表明，将传统光流的金字塔、warping和匹配代价计算等模块融入深度网络，可以有效提高模型的泛化能力和精度。

RAFT：Recurrent All-Pairs Field Transforms

RAFT（Recurrent All-Pairs Field Transforms）是光流估计领域的里程碑工作，它在ECCV 2020上提出，迅速成为该领域的主流架构之一【22†source】。RAFT的核心创新在于：

全对相关性（All-Pairs Correlations）：RAFT不像PWC-Net那样在每一层只计算局部窗口的相关性，而是计算两帧图像所有像素对之间的相关性，生成一个巨大的4D相关性体。这提供了更全面的匹配信息。

GRU迭代更新：RAFT采用一个门控循环单元（GRU）网络，以当前的光流估计和相关性体为输入，迭代地更新光流场。这种迭代机制类似于传统方法中的优化过程，但由网络学习如何更新。

多尺度上下文：RAFT在迭代过程中引入多尺度的上下文信息，帮助处理不同大小的运动。

RAFT在MPI Sintel和KITTI等基准上取得了当时最佳的精度，其端点误差（EPE）大幅低于之前的算法【3†source】。RAFT的成功证明了深度网络可以通过精心设计的架构，学习到非常鲁棒的光流估计策略。随后，RAFT引发了大量改进工作，例如GMA（Global Motion Aggregation）通过全局运动聚合来改进遮挡处理，SKFlow通过“超级内核”（Super Kernels）扩大感受野等。这些工作在RAFT的基础上进一步刷新了性能纪录。

光流算法的性能基准与最新进展

为了客观评估光流算法的性能，研究者构建了多个基准数据集，其中MPI Sintel、KITTI和Spring是具有代表性的三个。它们分别侧重于合成场景的高难度挑战、真实驾驶场景的鲁棒性以及高分辨率细节的保持。下面将分别介绍这些基准及其上的最新进展。

MPI Sintel数据集：合成场景的严格考验

MPI Sintel源自开源动画电影《Sintel》，包含丰富的大位移、光照变化、运动模糊和遮挡等复杂场景。它分为Clean（无光照变化、无模糊）和Final（包含所有挑战）两个版本。Sintel数据集以其严苛的难度著称，对算法的鲁棒性提出了极高要求。

在MPI Sintel Final基准上，最新算法的性能已经远超传统方法。根据MPI Sintel官网的排名，截至2025年，排名前十的方法几乎全部为深度学习模型【6†source】。其中，FreeFlow-L以1.480的平均EPE位居第一，ViCo_VideoFlow_MOF（1.618）和CFFlow（1.647）分列二、三【6†source】。这些数字相比传统方法动辄数像素的误差有了数量级的改善。值得注意的是，排名靠前的算法大多基于RAFT或其改进架构。例如，FlowFormer系列通过引入Transformer结构改进相关性体的构建和迭代更新，在Sintel Clean上取得了0.95的EPE，在当时是最先进的水平【6†source】。而FlowDiffuser则另辟蹊径，将扩散模型应用于光流估计，通过生成式建模进一步提升了性能【6†source】。

图1：MPI Sintel Final基准排名前五算法的平均EPE对比

深度学习方法在Sintel上的成功，得益于其强大的表示学习和泛化能力。许多算法在训练时会结合多个数据集（如FlyingChairs、FlyingThings、Sintel、KITTI等）进行联合训练，以学习更普适的运动特征【1†source】。同时，数据增强（如随机遮挡、颜色扰动）也被广泛采用，以提高模型对Sintel中极端情况的鲁棒性。然而，Sintel的挑战依然存在，例如无纹理区域和剧烈光照变化仍会导致错误，这也是未来研究需要攻克的方向。

KITTI数据集：真实自动驾驶场景的挑战

KITTI数据集采集自真实驾驶环境，包含城市、道路等场景。与Sintel不同，KITTI的光流真值通过高精度激光雷达获得，因此只覆盖前景运动物体，背景区域没有真值。这使得KITTI更关注前景运动的准确性，同时要求算法对缺失真值的背景有合理推断。KITTI基准采用Fl-all指标，即所有像素中误差超过3像素或5%的像素比例。

在KITTI基准上，多帧方法和利用额外信息的方法表现突出。根据KITTI官网的排名，截至2025年，SEA-Flow3D + Monster以2.53%的Fl-all位居第一【11†source】。该方法利用了多帧视频和额外的深度信息（Monster数据集），通过3D场景流估计来提升光流精度。MS-RAFT-3D+和ARFlow等方法也跻身前列，Fl-all分别为2.85%【11†source】。其中，ARFlow通过自回归方式逐帧预测光流，能够在不显著增加计算量的情况下处理长视频序列，在KITTI和Spring基准上取得了当时最佳的公开成绩【5†source】。

图2：KITTI基准排名前五算法的Fl-all指标对比

利用多帧时序信息是提升KITTI性能的重要途径。传统光流仅考虑两帧，而多帧方法可以推断出更平滑、更符合物理的运动轨迹。例如，VideoFlow通过循环网络利用多帧上下文，提高了对遮挡和重复纹理的处理能力【6†source】。MEMFOF等方法则通过多帧联合训练来学习更丰富的运动模式，在高分辨率训练下取得了优异表现【6†source】。此外，一些方法引入了场景流（scene flow）的概念，联合估计光流、深度和相机运动，从而更好地解释KITTI中的动态场景。例如，RAFT-3D通过嵌入刚体运动模型来估计场景流，提升了光流的物理合理性。

尽管KITTI上的错误率相比早期已大幅降低，但仍有提升空间。尤其在动态前景物体（如行驶的车辆）和远距离背景区域，算法需要同时处理大位移、遮挡和稀疏真值等挑战。未来的方法可能更加注重与立体视觉、SLAM等任务的联合，以充分利用多传感器信息。

Spring数据集：高分辨率与高细节的挑战

Spring是近年来提出的高分辨率光流基准，旨在评估算法在8K分辨率输入下的性能【3†source】。随着视频拍摄向4K、8K发展，传统在低分辨率下训练的模型在新场景下可能出现细节丢失或泛化能力不足的问题。Spring数据集通过合成高分辨率场景，对算法提出了新的考验。

在Spring基准上，DPFlow等专门针对高分辨率设计的模型表现优异。DPFlow通过双金字塔框架（Dual-Pyramid Framework）实现了对8K输入的自适应处理【3†source】。其核心思想是在训练时仅使用低分辨率样本，但通过架构设计保证模型能够将学到的知识迁移到高分辨率输入。DPFlow在Spring基准上取得了当时最优的结果，证明了在低分辨率数据上训练也能泛化到高分辨率场景【3†source】。此外，DPFlow在MPI Sintel、KITTI等传统基准上也达到了SOTA水平【3†source】。

Spring基准的出现揭示了一个有趣的现象：在低分辨率数据上训练的模型，通过特定架构设计，可以很好地泛化到高分辨率输入【7†source】。这为未来研究提供了新的思路，即如何在不牺牲性能的前提下，降低对高分辨率标注数据的依赖。除了DPFlow，一些方法如FlowSeek则通过结合深度基础模型，以极少的数据资源达到优异性能，为资源受限场景下的光流估计提供了可行方案【10†source】。

光流算法的典型应用场景

光流作为感知运动的关键技术，在计算机视觉的众多任务中发挥着重要作用。以下列举几个典型的应用场景：

视频稳像与运动补偿

在视频稳像（Stabilization）中，光流用于估计相邻帧之间的全局运动，从而对摄像机的抖动进行补偿，实现视频的平滑稳定。传统方法通常基于特征点跟踪，而光流可以提供稠密的像素级运动估计，使得稳像结果更加细腻。同样地，在视频压缩中，光流可用于运动补偿预测，提高压缩效率。在早期的H.264等编码标准中，块匹配运动估计是核心技术，而基于光流的全局运动估计可以进一步提升预测精度，减少残差信息。

目标跟踪与运动检测

光流在目标跟踪中可用于估计目标的运动轨迹。例如，在单目标跟踪中，可以通过计算目标区域的光流来判断目标的位移，从而实现跟踪。而在多目标或人群分析中，光流可以用于检测运动模式、识别异常行为。例如，有研究利用光流对人群进行聚类，以检测人群中的异常运动状态【13†source】。此外，在监控场景下，光流可以辅助检测运动区域，作为后续目标检测或行为识别的前端模块。

3D重建与SfM

在从运动恢复结构（Structure-from-Motion, SfM）和立体视觉中，光流提供了关键点匹配的线索。传统SfM流程中，特征点匹配是基础步骤，而光流可以作为特征点描述子的一种替代，直接估计点在相邻帧中的位置变化。特别是在纹理贫乏或重复纹理场景下，光流结合多视图几何可以提供更鲁棒的匹配。近年来，一些研究将光流与深度估计结合，通过单目视频序列同时恢复场景的深度和运动，实现动态场景的3D重建。

视频分割与动作识别

在视频对象分割（Video Object Segmentation）中，光流可以用于传播前一帧的分割结果到当前帧。通过估计像素级的运动，可以将分割mask随时间传播，从而减轻逐帧标注的负担。在动作识别等高层视觉任务中，光流常被用作输入特征之一，以捕捉人体的运动模式。例如，许多行为识别模型会将RGB帧和光流场同时输入网络，以提高对动作的辨别能力。光流能够提供与外观信息互补的运动信息，有助于区分相似外观但不同运动的动作。

自动驾驶与机器人感知

在自动驾驶领域，光流用于运动目标检测、场景流估计和动态避障等任务。例如，通过计算连续帧的光流，可以检测出与背景运动不一致的区域，从而发现前方车辆或行人。场景流（scene flow）进一步结合深度信息，能够估计每个像素的3D运动，这对于理解复杂交通场景（如行人突然横穿）至关重要【14†source】。在机器人领域，光流也被用于视觉里程计和SLAM中，提供短期的运动估计，辅助定位与地图构建。

结语

光流估计经过数十年的发展，已经从早期的经典方法演进到如今的深度学习时代。经典方法奠定了理论基础，而深度学习方法则在性能上实现了质的飞跃。当前，以RAFT为代表的深度学习模型在MPI Sintel、KITTI等基准上取得了前所未有的高精度，并且不断有新的算法涌现，推动着性能的边界向前拓展。与此同时，新的基准如Spring揭示了高分辨率场景下的挑战，促使研究者探索更高效的架构和训练策略。

展望未来，光流研究将继续围绕精度、鲁棒性和效率展开。如何在极端条件下（如极端光照、大遮挡、极端运动）保持稳定性能，是算法需要解决的问题。此外，跨任务联合学习（如光流与深度、分割的联合估计）以及少样本/无监督学习也是重要方向。随着硬件的发展，实时、轻量级的光流估计在移动端和嵌入式设备上的应用需求日益增长，这要求算法在保证精度的同时，更加注重计算效率和模型压缩。

总之，光流作为理解动态场景的基础技术，其发展贯穿了计算机视觉的历程。从早期的理论突破到如今的深度学习革新，光流算法的演进不仅体现了技术的进步，也推动了相关应用领域的繁荣。可以预见，在不远的将来，更加智能、高效的光流估计技术将为视频理解、自动驾驶和机器人等领域带来革命性的变化。