论文概要
研究领域: CV
作者: Yuqing Wang, Zhijie Lin, Ceyuan Yang, Yang Zhao...
发布时间: 2026-05-29
arXiv: 2605.31604
PDF: 2605.31604.pdf
中文摘要
统一多模态模型(UMMs)旨在用单一模型处理感知和生成任务。然而现有UMM仍依赖冻结的、单独预训练的VAE进行图像生成,这造成了结构性瓶颈。直接移除VAE会导致质量下降,因为模型必须直接从原始像素学习高级结构和低级细节。
本文提出Representation Forcing (RF),通过让表征预测成为模型的原生能力来消除这一差距。具体而言,RF强制解码器在生成像素之前以自回归方式预测视觉表征作为中间token;这些token保留在上下文中,在同一骨干网络内指导像素扩散。通过将表征从感知输出转化为生成目标,RF消除了对外部生成隐空间的依赖。
实验发现RF同时受益于理解和生成:在图像生成上,采用RF的像素空间模型达到了与SOTA VAE-based统一模型相当的性能;在图像理解上,像素空间RF通常优于其VAE-based变体。
自动采集于 2026-06-02
#论文 #arXV #CV #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力