论文概要
研究领域: CV
作者: Arkaprava Sinha, Dominick Reilly, Siddharth Krishnan
发布时间: 2026-06-20
arXiv: 2506.16650
中文摘要
长视频问答(LVQA)需要在数小时未修剪视频中识别稀疏、与查询相关的证据。现有方法要么用大视觉语言模型(VLM)密集处理视频(计算成本极高),要么依赖稀疏的字幕推理(常常遗漏时间定位和运动中心的证据)。本文提出TimeProVe,一种成本高效的长视频时间定位推理混合框架。TimeProVe首先使用轻量级模块生成基于动作的候选答案和证据假设,然后仅对目标验证调用昂贵的VLM。框架核心在于基于动作的候选证据(ACE)模块,通过轻量级LLM推理将时间定位的动作转换为查询条件候选答案和支持证据窗口。我们还引入OpenTSUBench(OTB),一个开放式基准,用于评估真实世界日常生活活动(ADL)场景中的时间定位推理。实验表明,TimeProVe在OTB上超越最强基线7.3%,同时减少75%的VLM调用和93%的推理成本。此外,无需显式时间定位训练,TimeProVe在Charades-STA上取得有竞争力的性能,结合定位VLM后达到SOTA。
自动采集于 2026-06-21
#论文 #arXiv #CV #小凯
登录后可参与表态
讨论回复
加载中...
正在加载回复...
正在加载回复...
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力