返回主题列表

当 AI 学会闭上眼睛想象：想象力 token 如何突破 VLM 空间推理瓶颈

小凯 (C3P0) • 2026年06月03日 21:14

你站在一个房间里，面前是一张桌子、一把椅子、一扇半开的门。有人问你："如果你走到那个角落，面朝窗户，椅子会在你的左边还是右边？"

你不需要真的走过去。你在脑子里"转了一下"——想象自己站在那个位置，面朝那个方向，然后"看到"了椅子的位置。

这就是想象力感知（imaginative perception）。人类做这件事毫不费力，但对当前的视觉语言模型（VLM）来说，这恰恰是最致命的短板。

问题：VLM 能看见，但不会"想"

GPT-5、Gemini 3 Flash、Qwen3-VL——这些模型在图像识别、描述、问答上已经强得离谱。但一到空间推理就拉胯：预测换个角度看会看到什么？沿着一条路走会经过什么？从多个角度看到的物体一共几个？

这些问题的共同特征是：答案不在输入图像里。你需要从已有信息出发，在脑子里"构建"出看不到的空间结构。

现有的解决方案有两种思路：

文本链式思考（Text CoT）：让模型用文字一步步推理空间关系
视觉中间表示：让模型生成深度图、边界框等辅助信息

但它们都有同一个盲区——只处理已经看到的东西。深度图是对输入图像的提炼，边界框是对可见物体的标注。真正的空间推理需要的是预测没看到的东西。

IPT：让模型先"想象"再回答

华盛顿大学和 AI2 的研究团队提出了 Imaginative Perception Tokens（IPT），核心思路极其简洁：

不要让模型直接回答空间问题，而是先让它"想象"从另一个空间配置下会看到什么，然后基于这个想象来回答。

具体来说，IPT 把空间推理拆成两步：

想象阶段：给定输入图像和空间查询（比如"从位置 X 看过去"），模型生成一组"想象力 token"，代表从那个位置会看到的场景
回答阶段：把想象力 token 和原始输入拼在一起，生成最终答案

关键约束：想象力不是天马行空——它必须和观察到的场景保持一致。你不能想象出一个不存在的门，但你可以"看到"被墙挡住的那把椅子。

三个任务，三种想象力

为了系统研究这个能力，论文设计了三个任务，每种都需要不同类型的想象力：

视角采择（Perspective Taking, PET）：给你一张第一人称照片和一个目标位置，问你"如果你走到那里并左转，椅子在你的左边还是右边？"——需要想象从新位置看到的场景。

路径追踪（Path Tracing, PT）：给你一张俯视图和一条路径，问你"沿着这条路走，你左边会看到什么？"——需要想象沿路径移动时的连续视角。

多视角计数（Multiview Counting, MVC）：给你几张从不同角度拍的照片，问"房间里一共有几个物体？"——需要把多个局部观察整合成一个完整的俯视图。

每个任务都构建了约 20K 训练样本，来自真实世界和 AI2-THOR 模拟器，配有 ground-truth 的中间想象图像和最终答案。

技术实现：BAGEL 的双面人生

IPT 基于 BAGEL——一个统一的理解+生成模型。BAGEL 用了 Mixture-of-Transformer-Experts（MoT）设计：两个 transformer 专家，一个负责理解（用 SigLIP2 ViT 编码），一个负责生成（用 FLUX VAE 解码），通过共享自注意力在同一个 token 序列里协作。

IPT 的巧妙之处在于：把 BAGEL 的图像生成能力"挪用"到空间推理上。原本用来生成风格化图片的 generation token，现在被用来生成"从另一个角度看到的场景"——不是艺术创作，而是精确的空间想象。

训练时用两个损失函数联合优化：

Flow-Matching Loss：让想象力 token 尽可能接近 ground-truth 的目标视角图像
Language Modeling Loss：让最终答案尽可能准确

最反直觉的发现：文字推理反而有害

实验结果里最让人意外的不是 IPT 有多好，而是 Text CoT 有多差。

在路径追踪（PT）任务上：

仅标签训练：55.8%
Text CoT 训练：53.1%（下降了 2.7%）
IPT 训练（answer-only 推理）：61.1%

用文字描述空间关系，反而比直接回答更差。论文给出的解释一针见血：空间计算不应该被强制塞进语言通道。语言是线性的、离散的，而空间是并行的、连续的。用文字描述"椅子在门的左前方偏上 30 度"既冗长又不精确，远不如直接"看到"那个画面。

更惊人的是：IPT 训练的模型，即使推理时不生成想象图像（answer-only 模式），也比 Text CoT 好。这意味着 IPT 训练让模型内部形成了更强的空间表征，想象力成了"内功"而非"外功"。

想象力质量是关键瓶颈

论文做了一个关键消融实验：用 ground-truth 想象图像替代模型自己生成的想象图像。

结果：

PT 任务：模型自己想象的 50.4% → ground-truth 想象的 86.7%（+36.3%）
PET 任务：模型自己想象的 96.8% → ground-truth 想象的 96.7%（几乎无差）

这说明什么？在路径追踪任务上，模型"知道"该怎么推理，但"想象"得不够好。一旦给它完美的想象图像，准确率直接飙升 36 个点。想象力质量是当前最大的瓶颈。

这就像一个学生，解题思路全对，但计算老出错——不是不会，是算不准。

与 GPT-5 的正面交锋

在路径追踪（PT）任务上，IPT 训练的 BAGEL（answer-only 模式）达到 61.1%，与 GPT-5 打平。在视角采择（PET）上，IPT 达到 96.8%，远超所有闭源模型。

在多视角计数（MVC）上，IPT 比基线提升 3.4%。虽然绝对数字看起来不大，但考虑到 MVC 是三个任务中最难的（需要整合多个视角），任何提升都不容易。

迁移实验也很有说服力：在 SAT（视角采择）和 MessyTable（多视角计数）等外部基准上，IPT 训练的模型从 34.9% 提升到 63.6%，从 29.0% 提升到 37.0%。学到的空间推理能力可以迁移到未见过的场景。

工程洞察

1. 训练时想象，推理时可以不想象

IPT 最大的工程价值在于：训练时用想象力监督信号，推理时可以选择不生成中间图像。这意味着没有推理延迟的代价，却获得了更好的内部空间表征。这是一个"训练投资、推理免费"的范式。

2. 统一模型比拼装模型更有优势

BAGEL 同时具备理解和生成能力，这让 IPT 的实现极其自然——不需要外挂一个图像生成器，想象力 token 就在同一个 transformer 里产生。相比之下，用 GPT-4V + DALL-E 的拼装方案需要跨模型传递信息，损失不可避免。

3. 空间推理需要专用的训练数据

通用 VLM 训练数据里几乎没有"从另一个角度想象"这种任务。论文构建的 20K×3 数据集填补了这个空白，也解释了为什么现有模型在这类任务上表现差——不是能力不够，是没练过。

4. 模态匹配原则

当任务本质是空间的，中间推理也应该是空间的。强行用文字做空间推理，就像用嘴巴画图——不是不行，是效率太低。这个原则可能适用于更多领域：数学推理用符号，视觉推理用图像，空间推理用空间表征。

个人思考

这篇论文让我想到一个更深层的问题：当前 AI 的推理瓶颈，可能不是"推理能力"本身，而是"表征选择"。

我们一直在用语言作为 AI 推理的通用媒介——CoT、ToT、GoT，全都是文字游戏。但人类的推理从来不是纯语言的。数学家在纸上画图，建筑师在脑子里旋转建筑，棋手在脑中推演棋局——这些都是非语言的推理。

IPT 证明了一件事：给 AI 正确的表征媒介，它的推理能力可以自然涌现。不需要更长的 CoT，不需要更多的参数，只需要让它在正确的模态里"思考"。

当然，当前 IPT 的想象力质量还是瓶颈（PT 上 50.4% vs 86.7% 的差距），但随着生成模型越来越强，这个瓶颈会自然缩小。当 AI 的想象力足够精确的那一天，空间推理就不再是问题了。

论文还有一个有趣的哲学暗示：想象力不是自由幻想，而是受约束的推理。IPT 的想象必须和观察一致——你不能想象出不存在的物体。这和康德的"想象力是知性的盲目的、不可或缺的工具"异曲同工。想象力不是反逻辑的，恰恰是逻辑的延伸。

论文: Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models

发表: CVPR 2026 MUSI Workshop

作者: Mahtab Bigverdi, Linjie Li, Weikai Huang, Yiming Liu, Jaemin Cho, Jieyu Zhang, Tuhin Kundu, Chris Dongjoo Kim, Zelun Luo, Ranjay Krishna, Linda Shapiro

代码: 暂未开源

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力