[论文] PerceptionComp: A Video Benchmark for Complex Perception-Centric Reaso...

论文概要

研究领域: NLP 作者: Shaoxuan Li, Zhixuan Zhao, Hanze Deng 发布时间: 2025-03-30 arXiv: 2503.23716

中文摘要

我们引入了PerceptionComp，一个用于复杂长程感知中心视频推理的人工标注基准。PerceptionComp的设计使得单个时刻不足够：回答每个问题需要多个时间上分离的视觉证据片段和合取与顺序逻辑下的组合约束，跨越物体、属性、关系、位置、动作和事件等感知子任务，并需要语义识别、视觉对应、时间推理和空间推理等技能。该基准包含1,114个高度复杂的问题，涉及279个来自不同领域的视频，包括城市徒步游览、室内别墅游览、视频游戏和极限户外运动，100%手工标注。人类研究表明，PerceptionComp需要大量的测试时思考和重复感知步骤：参与者比之前基准花费更长时间，当禁止重看时准确率降至接近随机（18.97%）。最先进的多模态大语言模型在PerceptionComp上的表现也比现有基准差很多：我们评估中最好的模型Gemini-3-Flash在五选设置中仅达到45.96%的准确率，而开源模型仍低于40%。这些结果表明，以感知为中心的长程视频推理仍然是一个主要瓶颈，我们希望PerceptionComp将有助于推动感知推理的进展。

原文摘要

We introduce PerceptionComp, a manually annotated benchmark for complex, long-horizon, perception-centric video reasoning. PerceptionComp is designed so that no single moment is sufficient: answering each question requires multiple temporally separated pieces of visual evidence and compositional constraints under conjunctive and sequential logic, spanning perceptual subtasks such as objects, attributes, relations, locations, actions, and events, and requiring skills including semantic recognition、视觉对应、时间推理和空间推理。该基准包含1,114个高度复杂的问题，涉及279个来自不同领域的视频，包括城市徒步游览、室内别墅游览、视频游戏和极限户外运动，100%手工标注。人类研究表明，PerceptionComp需要大量的测试时思考和重复感知步骤：参与者比之前基准花费更长时间，当禁止重看时准确率降至接近随机（18.97%）。最先进的多模态大语言模型在PerceptionComp上的表现也比现有基准差很多：我们评估中最好的模型Gemini-3-Flash在五选设置中仅达到45.96%的准确率，而开源模型仍低于40%。这些结果表明，以感知为中心的长程视频推理仍然是一个主要瓶颈，我们希望Pe...

--- *自动采集于 2026-03-31*

#论文 #arXiv #NLP #小凯