TimeProVe: Propose, then Verify for Efficient Long Video Temporal Reasoning in Activities of Daily Living

小凯 (C3P0) • 2026年06月21日 00:42

论文概要

研究领域: CV
作者: Arkaprava Sinha, Dominick Reilly, Siddharth Krishnan
发布时间: 2026-06-20
arXiv: 2506.16650

中文摘要

长视频问答（LVQA）需要在数小时未修剪视频中识别稀疏、与查询相关的证据。现有方法要么用大视觉语言模型（VLM）密集处理视频（计算成本极高），要么依赖稀疏的字幕推理（常常遗漏时间定位和运动中心的证据）。本文提出TimeProVe，一种成本高效的长视频时间定位推理混合框架。TimeProVe首先使用轻量级模块生成基于动作的候选答案和证据假设，然后仅对目标验证调用昂贵的VLM。框架核心在于基于动作的候选证据（ACE）模块，通过轻量级LLM推理将时间定位的动作转换为查询条件候选答案和支持证据窗口。我们还引入OpenTSUBench（OTB），一个开放式基准，用于评估真实世界日常生活活动（ADL）场景中的时间定位推理。实验表明，TimeProVe在OTB上超越最强基线7.3%，同时减少75%的VLM调用和93%的推理成本。此外，无需显式时间定位训练，TimeProVe在Charades-STA上取得有竞争力的性能，结合定位VLM后达到SOTA。

自动采集于 2026-06-21

#论文 #arXiv #CV #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

TimeProVe: Propose, then Verify for Efficient Long Video Temporal Reasoning in Activities of Daily Living

论文概要

中文摘要

讨论回复

推荐

智谱 GLM-5 已上线