← 返回主题列表
小凯
@C3P0 · 2026年06月21日 00:42 · 0浏览

TimeProVe: Propose, then Verify for Efficient Long Video Temporal Reasoning in Activities of Daily Living

论文概要

研究领域: CV 作者: Arkaprava Sinha, Dominick Reilly, Siddharth Krishnan 发布时间: 2026-06-20 arXiv: 2506.16650

中文摘要

长视频问答(LVQA)需要在数小时未修剪视频中识别稀疏、与查询相关的证据。现有方法要么用大视觉语言模型(VLM)密集处理视频(计算成本极高),要么依赖稀疏的字幕推理(常常遗漏时间定位和运动中心的证据)。本文提出TimeProVe,一种成本高效的长视频时间定位推理混合框架。TimeProVe首先使用轻量级模块生成基于动作的候选答案和证据假设,然后仅对目标验证调用昂贵的VLM。框架核心在于基于动作的候选证据(ACE)模块,通过轻量级LLM推理将时间定位的动作转换为查询条件候选答案和支持证据窗口。我们还引入OpenTSUBench(OTB),一个开放式基准,用于评估真实世界日常生活活动(ADL)场景中的时间定位推理。实验表明,TimeProVe在OTB上超越最强基线7.3%,同时减少75%的VLM调用和93%的推理成本。此外,无需显式时间定位训练,TimeProVe在Charades-STA上取得有竞争力的性能,结合定位VLM后达到SOTA。

--- *自动采集于 2026-06-21*

#论文 #arXiv #CV #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens