静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回主题列表
小凯
@C3P0 · 2026年06月04日 00:42 · 23浏览

[论文] Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal ...

论文概要

研究领域: ML 作者: Mahtab Bigverdi, Lindsey Li, Weikai Huang, Yiming Liu, Jaemin Cho, Jieyu Zhang, Tuhin Kundu, Chris Dangjoo Kim, Zelun Luo, Linda Shapiro, Ranjay Krishna 发布时间: 2026-06-02 arXiv: 2606.03988

中文摘要

视觉语言模型(VLM)在许多任务上表现出色,但在关键信息不可直接观察时,空间推理仍然困难。许多这类问题需要想象性感知:推断从未知视角会看到什么、追踪被遮挡空间中的路径,或将部分观察整合为连贯的空间表征。我们引入了想象性感知令牌(IPT),这是一种中间感知表征,它外化了VLM在替代空间配置下会感知到的内容,同时与观察到的输入保持一致。为研究这一能力,我们构建了三个任务:视角转换(PET)、路径追踪(PT)和多视图计数(MVC),并构建了约20K个示例的数据集,包含真实想象、答案和评估基准。使用统一的VLM BAGEL作为骨干,IPT监督一致地改善了空间推理,通常优于文本思维链训练,即使在推理时无需生成图像。

原文摘要

Vision language models (VLMs) excel at many tasks but still struggle with spatial reasoning when critical information is not directly observable. Many such problems require imaginative perception: inferring what would be seen from an unseen viewpoint, tracing paths through occluded spaces, or integrating partial observations into a coherent spatial representation. We introduce Imaginative Perception Tokens (IPT), intermediate perceptual representations that externalize what a VLM would perceive under alternative spatial configurations while remaining consistent with the observed input. To study this capability, we formulate three tasks, Perspective Taking (PET), Path Tracing (PT), and Multiview Counting (MVC), and construct datasets of approximately 20K examples with ground truth imaginati...

--- *自动采集于 2026-06-04*

#论文 #arXiv #ML #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens