去掉 VAE 之后，多模态模型反而更强了？

小凯 · 2026-06-02T00:45:36+00:00

## 论文概要 **研究领域**: CV **作者**: Yuqing Wang, Zhijie Lin, Ceyuan Yang, Yang Zhao... **发布时间**: 2026-05-29 **arXiv**: [2605.31604](https://arxiv.org/abs/2605.31604) **PDF**: [2605.31604.pdf](https://arxiv.org/pdf/2605.31604.pdf) ## 中文摘要统一多模态模型（UMMs）旨在用单一模型处理感知和生成任务。然而现有UMM仍依赖冻结的、单独预训练的VAE进行图像生成，这造成了结构性瓶颈。直接移除VAE会导致质量下降，因为模型必须直接从原始像素学习高级结构和低级细节。本文提出**Representation Forcing (RF)**，通过让表征预测成为模型的原生能力来消除这一差距。具体而言，RF强制解码器在生成像素之前以自回归方式预测视觉表征作为中间token；这些token保留在上下文中，在同一骨干网络内指导像素扩散。通过将表征从感知输出转化为生成目标，RF消除了对外

想象你在装修房子。传统方案是先请一个专业团队搭框架（VAE编码器），再请另一个团队做精装修（扩散模型），两个团队各干各的，交接时信息必然有损耗。如果能把框架和装修交给同一个团队从头做到尾呢？

这就是 Representation Forcing（RF）要解决的问题。

一个被默认接受的瓶颈

当前主流的统一多模态模型（UMM）看起来很美——一个 Transformer 同时处理理解和生成。但仔细看生成路径，你会发现一个尴尬的事实：图像生成仍然依赖一个冻结的、单独预训练的 VAE。图像先被 VAE 编码器压缩成潜变量，扩散过程在潜空间里进行，最后由 VAE 解码器还原成像素。

这个 VAE 就像一个外包团队，它的潜空间是为重建优化的，不是为统一模型的目标优化的。它的有损压缩给生成质量设定了一个硬上限——不管统一模型怎么训练，都突破不了这个天花板。

那直接去掉 VAE，在像素空间生成呢？之前的尝试表明，去掉 VAE 后质量会明显下降。原因在于：统一模型面对的图像分布更广、文本条件更丰富，模型必须从同一个原始信号（像素）中同时学习高层语义结构和低层细节纹理。没有中间表征来分离这两个因素，扩散过程就像一个画家同时构思构图和调配颜料——顾此失彼。

关键洞察：表征就在模型内部

RF 的核心洞察是：统一多模态模型自己就有表征——理解路径的编码器已经学会了捕捉高层结构的视觉表征（物体身份、空间布局、场景构成）。在理解任务中，编码器从已有图像中提取这些表征；但在生成任务中，没有图像可供提取，模型必须自己预测这些表征。

RF 做的事情很简单：把理解编码器提取的视觉表征作为目标，训练解码器以自回归方式预测它们，就像预测语言 token 一样。这些预测出的表征 token 留在上下文中，作为像素扩散的结构性脚手架。

用装修的类比：不是请两个团队，而是让同一个团队先画好设计图（预测表征），再按图施工（像素扩散）。设计图和施工在同一个骨干网络里完成，信息零损耗。

具体怎么做

RF 的训练流程分三步：

1. 表征来自理解：理解编码器从输入图像中提取视觉特征，通过在线向量量化（Online VQ）离散化为表征 token 2. 解码器预测表征：在生成时，解码器先以自回归方式预测这些表征 token，再进行像素扩散。表征预测和语言预测共享同一个 next-token prediction 目标 3. 表征引导像素生成：预测出的表征 token 留在 Transformer 上下文中，作为像素扩散的条件信号

推理时，模型先自回归生成表征 token 序列，再以这些表征为条件进行像素空间扩散。整个过程不需要任何外部 VAE。

实验结果：去掉瓶颈，反而更强

在 GenEval 和 DPG-Bench 两个文本到图像生成基准上，RF-Pixel（像素空间 + RF）匹配了最先进的 VAE-based 统一模型的性能，而且没有使用任何预训练 VAE。

更令人惊喜的是理解任务的结果。在 MMBench、MMMU、HalluBench 等 8 个理解基准上，Pixel+RF 在 6 个基准上优于 VAE+RF 变体。例如：

HalluBench：Pixel+RF 79.3 vs VAE+RF 71.3（+8.0）
MME：Pixel+RF 66.6 vs VAE+RF 65.2（+1.4）
ChartQA：Pixel+RF 80.5 vs VAE+RF 78.8（+1.7）

这说明像素空间生成与统一多模态建模的兼容性优于 VAE-based 生成。原因可能是：VAE 的有损压缩不仅限制了生成质量，也损害了理解路径中学到的表征质量——当你只见过压缩后的图像，你对图像的理解也会打折扣。

消融实验的关键发现

消融实验揭示了几个重要设计选择：

RF 对像素空间生成至关重要：去掉 RF 后，像素空间模型质量大幅下降；但 RF 对 VAE-based 模型也有提升
解码器预测优于辅助对齐：RF（解码器预测表征）比 REPA（辅助对齐损失）更有效，因为 RF 让表征成为生成过程的显式组成部分，而非训练时的隐式约束
在线 VQ 是必要的：离散化表征比连续表征效果更好，因为离散 token 与语言 token 更兼容

为什么这件事重要

RF 证明了一件事：统一多模态模型不需要在生成质量上妥协。去掉 VAE 这个外部瓶颈后，模型不仅生成质量不降，理解能力反而更强了。

这背后的哲学是：理解和生成应该共享同一个表征空间。当你把理解路径学到的表征变成生成路径的目标，你就消除了两个任务之间的信息鸿沟。表征不再是理解的副产品，而是连接理解与生成的桥梁。

从工程角度看，RF 还有一个实际好处：去掉了对预训练 VAE 的依赖，整个模型真正端到端训练，部署也更简单。

当然，RF 目前还有局限：像素空间扩散的计算成本高于潜空间扩散，生成速度是实际部署的挑战。但方向是清晰的——当模型学会自己构建结构，它就不再需要别人搭好的脚手架了。

---

*深度研读于 arXiv:2605.31604 | Representation Forcing for Bottleneck-Free Unified Multimodal Models | Wang et al., 2026*