您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

Monet:AI视觉推理在潜在空间的革命性突破

✨步子哥 (steper) 2026年01月08日 12:42 0 次浏览
Monet:AI视觉推理在潜在空间的革命性突破

Monet:AI视觉推理在潜在空间的革命性突破

引言:超越像素的“想象之眼”

想象一下,闭上眼睛,脑海中浮现一把椅子在旋转——这种简单的心理模拟,正是人类视觉推理的神奇之处。对于人工智能而言,能够像人类一样“在脑海中”旋转物体、进行抽象视觉思考,被视为视觉推理的终极挑战【1†source】。本期深度解读的论文《Monet: Reasoning in Latent Visual Space Beyond Images and Language》正是围绕这一目标展开。Monet由北京大学、快手和MIT联合团队提出,旨在让多模态大模型(MLLM)摆脱“看图说话”的笨拙模式,真正拥有类似人类的“想象之眼”【3†source】。它不再满足于简单的像素识别,而是在高维的“潜在视觉空间”中进行连续的心理模拟【5†source】。Monet如何利用“潜在空间”和“流形假说”重构机器视觉?它为何能超越GPT-4V等现有模型的视觉推理能力?我们将深入探讨这一突破性方法,以及它对机器人救灾、医疗预测等领域可能带来的深远影响。

背景:AI视觉推理的挑战与现有方法的局限

当前的AI视觉推理研究已从单纯依赖文本思维链(Chain-of-Thought, CoT)转向在推理过程中注入视觉证据,即所谓的“Thinking with Images”范式【7†source】。这一范式通过在CoT的中间步骤引入辅助图像(例如突出显示关键区域、调用外部视觉工具或代码编辑图像)来增强模型的推理能力【7†source】。然而,这些方法本质上仍是在“像素空间”中打转:它们要么需要额外的工具(如深度估计、代码解释器)来生成新的视觉内容,要么依赖于对原始图像的裁剪和局部高亮等操作【7†source】。这种依赖外部工具的方案虽然有所进步,却缺乏人类般灵活、内在的视觉抽象思考能力【7†source】。人类在解决视觉问题时,往往不需要真正画出图像或在屏幕上标注,而是依赖大脑内部的“心理图像”进行推理。现有AI模型受限于有限的工具集,难以在内部感知空间中自由地模拟和推演【7†source】。简而言之,AI当前更像是在“描述”图像,而非真正“理解”并“想象”图像

Monet框架概述:在潜在空间中“思考”

Monet的核心理念是让多模态大模型直接在连续的潜在视觉空间中进行推理,生成连续的嵌入(embeddings)作为中间的“视觉思维”(Visual Thoughts)【1†source】。这意味着模型不再显式地产生辅助图像,而是输出一系列高维向量,这些向量在某种意义上“编码”了图像的关键视觉信息和推理过程,模型可以利用这些向量继续后续的推理步骤【1†source】。Monet框架的训练包括两个主要阶段:监督微调(SFT)强化学习(RL)【1†source】。在SFT阶段,Monet通过三阶段的蒸馏式训练,赋予模型生成和利用潜在嵌入进行推理的基础能力【1†source】。在RL阶段,Monet提出了视觉-潜在策略优化(Visual-Latent Policy Optimization, VLPO)算法,将潜在嵌入纳入强化学习的策略梯度更新,直接根据奖励信号雕琢模型的“直觉”【1†source】。通过这种在潜在空间进行的连续推理,Monet旨在模仿人类大脑内部的抽象视觉思考过程,使AI能够像旋转椅子的思想实验一样,在“脑海”中完成复杂的视觉推理任务。

核心技术(一):三阶段蒸馏式监督微调(SFT)

训练模型在潜在空间推理并非易事,Monet识别出两大核心挑战并提出了相应的解决方案【1†source】。挑战一是“潜在-视觉对齐”的计算成本高昂:直接将生成的嵌入与成千上万个图像像素或特征进行对齐会带来巨大的计算和内存开销,而如果简单地采用平均池化等方法压缩图像特征,又会扭曲细微的视觉细节【1†source】。挑战二是“对潜在嵌入的监督不足”:在传统的监督微调中,模型通常仅对文本token进行下一词预测(Next-Token Prediction, NTP)损失,这容易导致模型过拟合于文本部分,而忽略了对潜在嵌入的优化【1†source】。此外,常用的强化学习方法(如GRPO)也只在离散的文本token上计算损失,无法直接优化连续的潜在嵌入【1†source】。针对这些问题,Monet设计了三阶段的蒸馏式监督微调管道,巧妙地解决了潜在-视觉对齐和嵌入监督的难题【1†source】。

阶段1:热身(适应图像-文本交错推理)

Monet首先对基础模型(Qwen2.5-VL-7B)进行标准的监督微调,目标是使模型适应“图像-文本交错的推理”模式【1†source】。训练数据集Monet-SFT-125K包含125,000个高质量样本,涵盖了真实世界场景、图表、光学字符识别(OCR)和几何问题等多种类型的图文交错CoT【1†source】。在这一阶段,模型学习在CoT的中间步骤利用辅助图像来预测后续文本,特别是让“观察token”(obs tokens,即用于表示关键视觉特征的文本token)能够有效地编码辅助图像中的视觉信息【1†source】。简单来说,Monet-SFT阶段1通过让模型看图、回答问题,使其初步掌握在推理过程中融合图像和文本的能力。

阶段2:获取高质量目标潜在嵌入

在阶段2,Monet引入教师-学生模型的蒸馏策略,以获取高质量的“目标潜在嵌入”作为监督信号【1†source】。具体做法是:初始化两个相同的模型(教师模型和学生模型,均来自阶段1的模型)。教师模型处理包含真实辅助图像的CoT数据,而学生模型则在每个辅助图像片段之后生成自回归的潜在嵌入,并通过修改的注意力掩码,使这些潜在嵌入可以直接关注原始图像的特征,同时后续的文本token无法直接看到原始图像【1†source】。这种设计确保了学生模型必须依赖自身生成的潜在嵌入来推理,而教师模型则提供正确的推理路径作为目标。

Monet的核心创新在于双重的监督信号

  1. 关键观察token对齐:将学生模型生成的潜在嵌入作为辅助图像的替代,使其在预测后续“观察token”时的隐藏状态,与教师模型在给定真实辅助图像时的隐藏状态尽可能一致【1†source】。也就是说,让学生模型的“脑海图像”产生的内部表示,与教师模型看到真实图像时的内部表示对齐。这种对齐使用余弦相似度损失在所有隐藏层上计算,确保学生模型学会生成“有意义”的潜在嵌入,能够指导后续推理【1†source】。
  2. “辅助图像→潜在→观察”信息流:通过精心设计的注意力掩码,控制信息流动。学生模型的潜在嵌入可以直接“看到”原始辅助图像的嵌入,从而选择性地编码关键的视觉线索;而后续的文本token则无法直接访问原始图像,只能通过潜在嵌入间接获取视觉信息【1†source】。这种结构化的信息流鼓励潜在嵌入承担起传递视觉信息的责任,而不是让模型绕过潜在嵌入直接依赖原始图像。
  3. 潜在专用反向传播:为了防止模型通过“捷径”最小化损失(例如让文本token直接从图像获取信息,而不优化潜在嵌入),Monet强制对齐损失的计算梯度仅通过生成的潜在嵌入反向传播【1†source】。具体实现中,通过一个代理损失来实现,只允许梯度流经潜在嵌入,而不经过非潜在表示的参数【1†source】。这确保模型真正地学习生成高质量的潜在嵌入,而不是依赖其他捷径。

通过上述训练,学生模型在阶段2结束时生成了高质量的潜在嵌入(即“目标潜在嵌入”),可以作为后续阶段的监督基准。

阶段3:无辅助图像下生成潜在嵌入

阶段3的目标是让模型脱离对辅助图像的依赖,在推理时自主地生成潜在嵌入【1†source】。Monet再次使用阶段1的模型初始化,训练模型在没有辅助图像的情况下生成潜在嵌入,并将这些生成的嵌入与阶段2得到的目标潜在嵌入对齐【1†source】。这一过程同样在所有隐藏层上计算对齐损失,确保模型生成的潜在嵌入与目标高度一致【1†source】。经过阶段3的训练,Monet模型获得了完全自主的能力:在推理时,它可以自发生成一系列潜在嵌入,用这些“脑海中”的视觉思考来辅助文本推理,而无需任何外部工具或额外图像输入。

通过三阶段的循序渐进训练,Monet成功地解决了潜在-视觉对齐和监督不足的问题。模型学会了在连续的潜在空间中进行推理,同时保留了关键的视觉细节,并通过精心设计的训练目标避免了过拟合和捷径行为。

核心技术(二):视觉-潜在策略优化(VLPO)

尽管SFT赋予了Monet在潜在空间推理的基础能力,但模型输出的潜在嵌入是否真正有助于提高最终答案的准确性,仍需要进一步优化和验证。传统上,强化学习(RL)被用于通过奖励信号引导模型生成更好的推理过程。然而,Monet团队发现直接应用常用的GRPO算法存在局限:GRPO主要优化文本推理,而对潜在推理的优化作用有限【1†source】。这是因为GRPO依赖于离散token的概率分布来计算策略梯度,对于连续的潜在嵌入,无法直接计算其概率【1†source】。换言之,GRPO只能奖励文本部分的推理,却难以奖励潜在嵌入的“质量”,这导致模型在潜在空间中的改进受到限制。

为克服这一局限,Monet提出了视觉-潜在策略优化(VLPO)算法,将潜在嵌入显式地纳入强化学习的策略梯度更新中【1†source】。VLPO的核心思想是估计潜在嵌入的输出概率,从而计算一个近似的策略比率,用于策略梯度优化【1†source】。具体而言,Monet假设模型在推理过程中采集的潜在嵌入(来自旧策略π_old)是来自以当前策略π_θ生成的均值为μ、方差为σ²的高斯分布的样本【1†source】。基于这个假设,策略π_θ生成该潜在嵌入的概率可以近似计算为:

π_θ(h_old | Q, I, o_

其中,h_old是旧策略生成的潜在嵌入,μ_θ是当前策略在相同上下文下生成的潜在嵌入均值,σ是预设的超参数【1†source】。利用这个近似概率,Monet可以计算潜在嵌入的策略比率r_t(θ) = π_θ(h_old) / π_old(h_old),并将其代入策略梯度目标(类似于PPO的裁剪目标)中【1†source】。当优势函数A_t > 0时,最大化VLPO目标将增大策略比率r_t(θ),这意味着鼓励当前策略产生的潜在嵌入接近那些导致积极结果奖励的“良好”潜在嵌入【1†source】。换句话说,VLPO让奖励信号直接作用于潜在嵌入,引导模型生成更有助于提高最终答案准确性的视觉思维。

VLPO的训练过程类似于传统的策略梯度方法:Monet通过rollout采集样本,计算每个样本的奖励(例如答案正确与否),然后根据策略比率更新模型参数【1†source】。不同的是,VLPO在计算策略梯度时,同时考虑了离散的文本token和连续的潜在嵌入,使得两者都能根据奖励进行优化【1†source】。实验证明,引入VLPO后,Monet模型的潜在推理能力得到了显著提升,特别是在未见过的任务上展现出更强的泛化性能【1†source】。简而言之,VLPO为模型的“直觉”提供了直接的反馈机制,让AI学会如何产生更有用的“脑海图像”来支持推理。

实验结果:Monet的优势与泛化能力

Monet团队在多个真实世界感知和推理基准上对Monet-7B模型进行了评估,结果令人瞩目【1†source】。与基线模型(包括原始的Qwen2.5-VL-7B、仅进行常规SFT+GRPO的模型,以及一些基于裁剪和外部工具的方法)相比,Monet-SFT(三阶段监督微调)和Monet+VLPO(加入VLPO强化学习)均取得了一致的性能提升【1†source】。在需要复杂视觉推理的任务上,Monet展现出明显的优势,这表明在潜在空间进行连续推理确实有助于提高模型的推理质量。

更令人振奋的是,Monet在分布外(Out-of-Distribution, OOD)的抽象视觉推理任务上表现出强大的泛化能力【1†source】。这些OOD任务通常是模型在训练中未曾见过的、更加抽象或复杂的视觉推理问题。Monet在这些任务上的性能提升尤为显著,证明了其潜在空间推理策略的通用性和鲁棒性【1†source】。相比之下,仅依靠文本CoT或固定工具的模型,在OOD任务上往往难以适应,而Monet通过在潜在空间中“举一反三”,能够将学到的视觉推理模式迁移到全新的场景中。

图1:Monet在不同视觉推理任务上与基线模型的性能对比。图表显示,Monet(VLPO)不仅在常规任务上超越了基线模型,在更具挑战性的OOD任务上性能提升幅度更大。

通过消融实验,Monet团队还分析了各训练组件的作用。结果证实,阶段2中精心设计的潜在-视觉对齐机制是Monet成功的关键,它确保模型生成的潜在嵌入真正编码了必要的视觉信息【1†source】。同时,阶段3让模型脱离辅助图像的训练被证明是提升泛化能力的重要因素——模型在无辅助图像情况下学会的潜在推理能力,能够更灵活地应用于新任务。此外,VLPO的引入对于提高模型在困难任务上的表现至关重要,它使得潜在嵌入能够直接根据奖励进行优化,这是SFT阶段无法实现的【1†source】。总的来说,实验结果充分证明了Monet方法的有效性:它不仅提升了模型在已知任务上的准确率,更赋予了模型在未知场景中进行视觉推理的“想象力”。

流形假说:数据在高维空间的“沙漠导航”

理解Monet为何有效,需要借助机器学习中的一个重要理论基础——流形假说(Manifold Hypothesis)。流形假说认为,尽管高维数据(如图像)看似占据着巨大的空间,但它们实际上往往分布在一个低维流形上【9†source】【10†source】。换言之,高维数据中存在内在的低维结构,只是被嵌入在高维空间中【11†source】【12†source】。这一假设已被广泛接受,并在许多降维和数据可视化方法中得到验证【13†source】。

我们可以用一个直观的比喻来理解高维空间的困难:高维空间如同广袤的沙漠,而有效数据则如同散落在沙漠中的绿洲。在高维空间中随机生成一个有意义的数据点(例如一张合理的图像)极其困难,因为大部分区域都是“噪声”或“荒漠”。数据点之间的距离在高维空间中也变得难以衡量,这被称为“维度灾难”【15†source】。因此,如果模型试图在高维像素空间中直接进行推理或生成,就如同在沙漠中漫无目的地行走,很难找到正确的方向。

流形假说指出,真实数据并非均匀分布在整个高维空间,而是集中在某些低维子流形上【15†source】。这意味着,如果我们能找到这些低维流形,就如同在沙漠中找到了“唯一正确的道路”,沿着这条道路前进,就能更有效地探索和生成数据【17†source】。例如,对于图像数据,不同图像可能只是在一个低维流形上变化的姿态、角度和颜色组合【15†source】。只要模型学会在这个低维流形上移动,就能够在“脑海”中模拟出各种合理的视觉变化,而不需要在高维像素空间中盲目搜索。

Monet的训练过程实际上就是在引导模型发现并利用这些低维流形。在SFT阶段,Monet通过让模型在潜在空间生成嵌入,并要求这些嵌入能够预测正确的后续观察token,实质上是在要求模型的潜在嵌入捕捉数据分布的本质结构。模型被迫学习将高维图像压缩成包含关键信息的低维表示,这相当于在学习数据所在的流形。一旦模型掌握了流形结构,它在推理时就可以在潜在空间进行“心理模拟”,例如让潜在嵌入沿着流形移动来模拟物体的旋转或遮挡效果,而不需要真正画出所有可能的图像。这正是Monet能够像人类一样“想象”的关键:它并非在高维像素空间胡乱生成,而是在学到的低维流形上进行合理的移动。

VLPO强化学习则进一步确保模型生成的潜在嵌入始终沿着有意义的流形方向前进。奖励信号会惩罚那些偏离真实数据流形的嵌入(因为它们会导致错误答案),奖励那些与真实数据一致的嵌入。通过这种方式,模型的潜在推理路径被限制在数据分布所允许的“绿洲”范围内,避免走入无效的“荒漠”区域。这使得Monet在未见过的任务上也能生成合理、有用的视觉思维,因为它已经内化了数据的基本几何结构。

未来展望:当机器拥有“心智模型”

Monet的出现标志着AI开始建立起对世界的内部因果理解和心智模型。当机器能够在潜在空间中进行心理模拟,这意味着它不再只是对输入图像做出反应,而是能够在脑海中进行实验和推演。例如,面对一张物理场景图像,具有心智模型的AI可以想象“如果我把这个物体拿走,会发生什么?”这样的情景,从而进行预测和决策。这种能力对于机器人等领域具有革命性意义。

机器人救灾等场景中,环境往往未知且瞬息万变。如果机器人能够像人类一样在脑海中预演行动的后果,它将能更有效地规划搜救路径、避开危险区域。例如,一个救灾机器人在探索倒塌建筑物时,可以想象不同移动方案下的结构稳定性,选择最安全的路径。这种内部模拟能力将显著提高机器人的自主性和安全性。研究表明,赋予机器人“模拟心理意象”进行规划的思路(即先在内部生成行动后果的图像,再据此规划)是可行的,并且生成的计划对人类是可解释的【16†source】。Monet的技术正是朝这个方向迈出的一大步——它让机器拥有了在“脑海”中进行图像级推理的能力。

医疗预测等领域,AI的心智模型同样大有可为。医生在诊断疑难病症时,往往需要在脑海中综合患者病史、影像和病理生理机制,进行假设和验证。AI如果具备类似的心智模型,就可以在内部模拟不同病情发展或治疗方案的后果,从而提供更有见地的决策支持。例如,AI可以通过“想象”患者生理指标的变化,预测不同治疗方案的效果,帮助医生选择最优方案。这将使AI从单纯的模式识别工具,转变为具有推理和预见能力的助手,提高医疗决策的质量。

当然,我们也应清醒地看到,Monet目前只是朝着心智模型迈出了一小步。它主要在视觉推理任务上验证了有效性,对于更复杂、更抽象的物理世界理解仍需进一步拓展。例如,Monet当前生成的潜在嵌入虽然可以用于推理,但人类对心智模型的要求还包括对时间、因果、常识等多方面的综合模拟能力。未来的研究需要将Monet的思想扩展到更广泛的多模态和更长时间的规划中,让AI的心智模型更加完善。

尽管如此,Monet已经为我们描绘了一个令人兴奋的未来图景:当机器拥有了真正的“心智模型”,它们将能够像人类一样在脑海中旋转物体、模拟情景,从而更深刻地理解和改造物理世界。这不仅会推动视觉推理领域的突破,更将深刻影响机器人技术、医疗诊断、科学探索等众多领域,开启AI应用的新篇章。Monet向我们证明,让AI“想象”不再是空中楼阁,而是可以通过巧妙的方法训练机器掌握。或许在不久的将来,我们就能见证一台真正“想象”出解决方案的AI机器人,在灾难现场救人于危难,或在手术台上为医生提供关键洞见。这一天,正因Monet这样的基础性研究而离我们越来越近。【1†source】【16†source】

讨论回复

0 条回复

还没有人回复