你站在一个房间里,面前是一张桌子、一把椅子、一扇半开的门。有人问你:"如果你走到那个角落,面朝窗户,椅子会在你的左边还是右边?"
你不需要真的走过去。你在脑子里"转了一下"——想象自己站在那个位置,面朝那个方向,然后"看到"了椅子的位置。
这就是想象力感知(imaginative perception)。人类做这件事毫不费力,但对当前的视觉语言模型(VLM)来说,这恰恰是最致命的短板。
问题:VLM 能看见,但不会"想"
GPT-5、Gemini 3 Flash、Qwen3-VL——这些模型在图像识别、描述、问答上已经强得离谱。但一到空间推理就拉胯:预测换个角度看会看到什么?沿着一条路走会经过什么?从多个角度看到的物体一共几个?
这些问题的共同特征是:答案不在输入图像里。你需要从已有信息出发,在脑子里"构建"出看不到的空间结构。
现有的解决方案有两种思路:
- 文本链式思考(Text CoT):让模型用文字一步步推理空间关系
- 视觉中间表示:让模型生成深度图、边界框等辅助信息
但它们都有同一个盲区——只处理已经看到的东西。深度图是对输入图像的提炼,边界框是对可见物体的标注。真正的空间推理需要的是预测没看到的东西。
IPT:让模型先"想象"再回答
华盛顿大学和 AI2 的研究团队提出了 Imaginative Perception Tokens(IPT),核心思路极其简洁:
不要让模型直接回答空间问题,而是先让它"想象"从另一个空间配置下会看到什么,然后基于这个想象来回答。
具体来说,IPT 把空间推理拆成两步:
- 想象阶段:给定输入图像和空间查询(比如"从位置 X 看过去"),模型生成一组"想象力 token",代表从那个位置会看到的场景
- 回答阶段:把想象力 token 和原始输入拼在一起,生成最终答案
关键约束:想象力不是天马行空——它必须和观察到的场景保持一致。你不能想象出一个不存在的门,但你可以"看到"被墙挡住的那把椅子。
三个任务,三种想象力
为了系统研究这个能力,论文设计了三个任务,每种都需要不同类型的想象力:
视角采择(Perspective Taking, PET):给你一张第一人称照片和一个目标位置,问你"如果你走到那里并左转,椅子在你的左边还是右边?"——需要想象从新位置看到的场景。
路径追踪(Path Tracing, PT):给你一张俯视图和一条路径,问你"沿着这条路走,你左边会看到什么?"——需要想象沿路径移动时的连续视角。
多视角计数(Multiview Counting, MVC):给你几张从不同角度拍的照片,问"房间里一共有几个物体?"——需要把多个局部观察整合成一个完整的俯视图。
每个任务都构建了约 20K 训练样本,来自真实世界和 AI2-THOR 模拟器,配有 ground-truth 的中间想象图像和最终答案。
技术实现:BAGEL 的双面人生
IPT 基于 BAGEL——一个统一的理解+生成模型。BAGEL 用了 Mixture-of-Transformer-Experts(MoT)设计:两个 transformer 专家,一个负责理解(用 SigLIP2 ViT 编码),一个负责生成(用 FLUX VAE 解码),通过共享自注意力在同一个 token 序列里协作。
IPT 的巧妙之处在于:把 BAGEL 的图像生成能力"挪用"到空间推理上。原本用来生成风格化图片的 generation token,现在被用来生成"从另一个角度看到的场景"——不是艺术创作,而是精确的空间想象。
训练时用两个损失函数联合优化:
- Flow-Matching Loss:让想象力 token 尽可能接近 ground-truth 的目标视角图像
- Language Modeling Loss:让最终答案尽可能准确
最反直觉的发现:文字推理反而有害
实验结果里最让人意外的不是 IPT 有多好,而是 Text CoT 有多差。
在路径追踪(PT)任务上:
- 仅标签训练:55.8%
- Text CoT 训练:53.1%(下降了 2.7%)
- IPT 训练(answer-only 推理):61.1%
用文字描述空间关系,反而比直接回答更差。论文给出的解释一针见血:空间计算不应该被强制塞进语言通道。语言是线性的、离散的,而空间是并行的、连续的。用文字描述"椅子在门的左前方偏上 30 度"既冗长又不精确,远不如直接"看到"那个画面。
更惊人的是:IPT 训练的模型,即使推理时不生成想象图像(answer-only 模式),也比 Text CoT 好。这意味着 IPT 训练让模型内部形成了更强的空间表征,想象力成了"内功"而非"外功"。
想象力质量是关键瓶颈
论文做了一个关键消融实验:用 ground-truth 想象图像替代模型自己生成的想象图像。
结果:
- PT 任务:模型自己想象的 50.4% → ground-truth 想象的 86.7%(+36.3%)
- PET 任务:模型自己想象的 96.8% → ground-truth 想象的 96.7%(几乎无差)
这说明什么?在路径追踪任务上,模型"知道"该怎么推理,但"想象"得不够好。一旦给它完美的想象图像,准确率直接飙升 36 个点。想象力质量是当前最大的瓶颈。
这就像一个学生,解题思路全对,但计算老出错——不是不会,是算不准。
与 GPT-5 的正面交锋
在路径追踪(PT)任务上,IPT 训练的 BAGEL(answer-only 模式)达到 61.1%,与 GPT-5 打平。在视角采择(PET)上,IPT 达到 96.8%,远超所有闭源模型。
在多视角计数(MVC)上,IPT 比基线提升 3.4%。虽然绝对数字看起来不大,但考虑到 MVC 是三个任务中最难的(需要整合多个视角),任何提升都不容易。
迁移实验也很有说服力:在 SAT(视角采择)和 MessyTable(多视角计数)等外部基准上,IPT 训练的模型从 34.9% 提升到 63.6%,从 29.0% 提升到 37.0%。学到的空间推理能力可以迁移到未见过的场景。
工程洞察
1. 训练时想象,推理时可以不想象
IPT 最大的工程价值在于:训练时用想象力监督信号,推理时可以选择不生成中间图像。这意味着没有推理延迟的代价,却获得了更好的内部空间表征。这是一个"训练投资、推理免费"的范式。
2. 统一模型比拼装模型更有优势
BAGEL 同时具备理解和生成能力,这让 IPT 的实现极其自然——不需要外挂一个图像生成器,想象力 token 就在同一个 transformer 里产生。相比之下,用 GPT-4V + DALL-E 的拼装方案需要跨模型传递信息,损失不可避免。
3. 空间推理需要专用的训练数据
通用 VLM 训练数据里几乎没有"从另一个角度想象"这种任务。论文构建的 20K×3 数据集填补了这个空白,也解释了为什么现有模型在这类任务上表现差——不是能力不够,是没练过。
4. 模态匹配原则
当任务本质是空间的,中间推理也应该是空间的。强行用文字做空间推理,就像用嘴巴画图——不是不行,是效率太低。这个原则可能适用于更多领域:数学推理用符号,视觉推理用图像,空间推理用空间表征。
个人思考
这篇论文让我想到一个更深层的问题:当前 AI 的推理瓶颈,可能不是"推理能力"本身,而是"表征选择"。
我们一直在用语言作为 AI 推理的通用媒介——CoT、ToT、GoT,全都是文字游戏。但人类的推理从来不是纯语言的。数学家在纸上画图,建筑师在脑子里旋转建筑,棋手在脑中推演棋局——这些都是非语言的推理。
IPT 证明了一件事:给 AI 正确的表征媒介,它的推理能力可以自然涌现。不需要更长的 CoT,不需要更多的参数,只需要让它在正确的模态里"思考"。
当然,当前 IPT 的想象力质量还是瓶颈(PT 上 50.4% vs 86.7% 的差距),但随着生成模型越来越强,这个瓶颈会自然缩小。当 AI 的想象力足够精确的那一天,空间推理就不再是问题了。
论文还有一个有趣的哲学暗示:想象力不是自由幻想,而是受约束的推理。IPT 的想象必须和观察一致——你不能想象出不存在的物体。这和康德的"想象力是知性的盲目的、不可或缺的工具"异曲同工。想象力不是反逻辑的,恰恰是逻辑的延伸。
论文: Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models
发表: CVPR 2026 MUSI Workshop
作者: Mahtab Bigverdi, Linjie Li, Weikai Huang, Yiming Liu, Jaemin Cho, Jieyu Zhang, Tuhin Kundu, Chris Dongjoo Kim, Zelun Luo, Ranjay Krishna, Linda Shapiro
代码: 暂未开源
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。