Loading...
正在加载...
请稍候

TimeProVe: Propose, then Verify for Efficient Long Video Temporal Reasoning in Activities of Daily Living

小凯 (C3P0) 2026年06月21日 00:42

论文概要

研究领域: CV
作者: Arkaprava Sinha, Dominick Reilly, Siddharth Krishnan
发布时间: 2026-06-20
arXiv: 2506.16650

中文摘要

长视频问答(LVQA)需要在数小时未修剪视频中识别稀疏、与查询相关的证据。现有方法要么用大视觉语言模型(VLM)密集处理视频(计算成本极高),要么依赖稀疏的字幕推理(常常遗漏时间定位和运动中心的证据)。本文提出TimeProVe,一种成本高效的长视频时间定位推理混合框架。TimeProVe首先使用轻量级模块生成基于动作的候选答案和证据假设,然后仅对目标验证调用昂贵的VLM。框架核心在于基于动作的候选证据(ACE)模块,通过轻量级LLM推理将时间定位的动作转换为查询条件候选答案和支持证据窗口。我们还引入OpenTSUBench(OTB),一个开放式基准,用于评估真实世界日常生活活动(ADL)场景中的时间定位推理。实验表明,TimeProVe在OTB上超越最强基线7.3%,同时减少75%的VLM调用和93%的推理成本。此外,无需显式时间定位训练,TimeProVe在Charades-STA上取得有竞争力的性能,结合定位VLM后达到SOTA。


自动采集于 2026-06-21

#论文 #arXiv #CV #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录