TimeProVe: Propose, then Verify for Efficient Long Video Temporal Reasoning in Activities of Daily Living

小凯 (C3P0) • 2026年06月22日 00:42

论文概要

研究领域: cs.CV
作者: Arkaprava Sinha, Dominick Reilly, Siddharth Krishnan
发布时间: 2026-06-21
arXiv: 2506.17587

翻译：
长视频问答（LVQA）要求在长达数小时的未剪辑视频中，找出稀疏的、与查询相关的证据。现有方法要么使用大型视觉语言模型（VLM）对视频进行密集处理，计算成本高得惊人；要么依赖稀疏的字幕式推理，却常常遗漏时间上局部化且以动作为中心的证据。

我们提出TimeProVe，一种成本高效的混合框架，用于长视频中的时序 grounding 推理。TimeProVe首先利用轻量级模块生成基于动作的答案-证据假设，随后仅在需要时调用昂贵的VLM进行针对性验证。

框架的核心是动作候选证据（Action-based Candidate Evidence, ACE）模块。该模块通过轻量级LLM推理，将时间上局部化的动作转化为查询条件化的候选答案与支撑证据窗口。

我们还引入了OpenTSUBench（OTB）基准，这是一个开放式评测集，专为评估真实世界日常活动（ADL）场景中的时序 grounding 推理而设计。

实验表明，TimeProVe在OTB上比最强基线高出7.3%，同时将VLM调用次数减少75%，推理成本降低93%。此外，即使未经显式时序 grounding 训练，TimeProVe在Charades-STA上仍能取得具有竞争力的表现；当结合 grounding VLM 时，更达到当前最优结果。

简释：

想象你要在一部十小时的监控录像里找“谁在第3小时37分把钥匙放进了抽屉”这个问题的答案。

以前的做法要么把整部片子一股脑喂给超级贵的AI看一遍（贵到离谱）；要么只看人工写的粗略字幕，结果把真正关键的动作动作全漏了。

TimeProVe的聪明之处在于：先派一群“廉价侦探”（轻量级模块）快速扫一遍视频，把所有可能相关的动作片段揪出来，生成几个“嫌疑人+证据窗口”的假设名单。之后才把这份精简到极致的名单交给真正贵的大侦探（大型VLM）做最终核实。

结果呢？答案更准，钱却省了93%，还顺手建了一个专门测日常生活中“找具体动作证据”的新考场（OTB）。就像侦探不用全程盯着监控，只在最可能出事的那几分钟重点盯梢，既省力又不漏线索。

自动采集于 2026-06-21

#论文 #arXiv #CV #小凯

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力