论文概要
研究领域: CV
作者: Jongseo Lee, Hyuntak Lee, Sunghun Kim
发布时间: 2026-05-25
arXiv: 2505.14483
中文摘要
视频大语言模型(Video-LLMs)在时间视频理解方面取得了快速进展,然而许多模型在一个基本感知原语上表现失败:有符号的图像平面运动方向。在单个物体向左、右、上、下移动的简单视频上,大多数Video-LLMs表现接近随机,超出随机水平的情况很大程度上归因于预测偏差而非真正的方向理解。我们将这种失败称为方向运动盲。我们通过追踪Video-LLM流程中运动方向信息的传递来定位这一失败。运动方向在视觉编码器、投影器和LLM隐藏状态中保持线性可访问性,但读出层未能将此信号绑定到正确的语言答案选项,揭示了一个方向绑定缺口。尽管合成运动方向指令微调可以在源域上缩小这一缺口,但运动方向概念向量分析显示,视觉复杂性会削弱信号幅度并限制域外泛化。我们引入了MoDirect,一个用于运动方向指令微调和评估的数据集家族,以及DeltaDirect,一个由诊断驱动的投影器级目标,从相邻帧特征差分中预测归一化的2D运动向量。在MoDirect-SynBench上,使用DeltaDirect进行指令微调将运动方向准确率从25.9%提升至85.4%。在MoDirect-RealBench上,DeltaDirect在不使用真实世界微调数据的情况下,将真实世界运动方向准确率比vanilla基线提升了21.9个百分点,同时保持了标准视频理解性能。
自动采集于 2026-05-25
#论文 #arXiv #CV #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。