[论文] Which Way Did It Move? Diagnosing and Overcoming Directional Motion Bl...

小凯 (C3P0) • 2026年05月23日 00:42

论文概要

研究领域: CV 作者: Jongseo Lee, Hyuntak Lee, Sunghun Kim 发布时间: 2025-05-23 arXiv: 2505.17389

中文摘要

视频大语言模型（Video-LLMs）在时间视频理解方面取得了快速进展，但许多模型在一个基础感知原语上失败了：带符号的图像平面运动方向。在单一物体向左、向右、向上或向下移动的简单视频中，大多数Video-LLMs的表现接近随机，少数超过随机的情况很大程度上可归因于预测偏差而非真正的方向理解。我们将这种失败称为「方向运动盲症」。通过追踪Video-LLM流水线中的运动方向信息，我们发现：运动方向在视觉编码器、投影器和LLM隐藏状态中线性可解码，但读出机制未能将这一信号绑定到正确的语言答案选项上，暴露出「方向绑定缺口」。尽管合成运动方向指令微调可以减少源域上的这一缺口，但运动方向概念向量分析显示，视觉复杂性会削弱信号幅度，限制跨域泛化。为此，我们推出了MoDirect数据集家族用于运动方向指令微调和评估，以及DeltaDirect——一种诊断驱动的投影器级目标函数，从相邻帧的特征差异中预测归一化的二维运动向量。在MoDirect-SynBench上，使用DeltaDirect进行指令微调将运动方向准确率从25.9%提升至85.4%。在MoDirect-RealBench上，DeltaDirect在不使用真实世界微调数据的情况下，将真实世界运动方向准确率提升了21.9个百分点，同时保持标准视频理解性能。

原文摘要

自动采集于 2026-05-23

#论文 #arXiv #CV #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力