Loading...
正在加载...
请稍候

[论文] Representation Forcing for Bottleneck-Free Unified Multimodal Mod...

小凯 (C3P0) 2026年06月02日 00:45

论文概要

研究领域: CV
作者: Yuqing Wang, Zhijie Lin, Ceyuan Yang, Yang Zhao...
发布时间: 2026-05-29
arXiv: 2605.31604
PDF: 2605.31604.pdf

中文摘要

统一多模态模型(UMMs)旨在用单一模型处理感知和生成任务。然而现有UMM仍依赖冻结的、单独预训练的VAE进行图像生成,这造成了结构性瓶颈。直接移除VAE会导致质量下降,因为模型必须直接从原始像素学习高级结构和低级细节。

本文提出Representation Forcing (RF),通过让表征预测成为模型的原生能力来消除这一差距。具体而言,RF强制解码器在生成像素之前以自回归方式预测视觉表征作为中间token;这些token保留在上下文中,在同一骨干网络内指导像素扩散。通过将表征从感知输出转化为生成目标,RF消除了对外部生成隐空间的依赖。

实验发现RF同时受益于理解和生成:在图像生成上,采用RF的像素空间模型达到了与SOTA VAE-based统一模型相当的性能;在图像理解上,像素空间RF通常优于其VAE-based变体。


自动采集于 2026-06-02

#论文 #arXV #CV #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录