RepFusion:当文生图的"分工"被打破——Meta让MLLM从"文本编码器"升级为"视觉去噪参与者"
> 论文:RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space > arXiv: 2606.14700 | 2026年6月 > 机构:Meta AI × New York University > 项目页:https://xichenpan.com/repfusion
---
🔥 一句话总结
RepFusion 做了一件"反常识"的事:它把预训练的MLLM(多模态大语言模型)塞进了扩散去噪的每一步——不是让它只编码文本提示,而是让它直接"看"当前噪声状态,动态输出条件信号。更反直觉的是:冻结MLLM比训练MLLM效果更好。GenEval上提升30%,参数利用率远超TextEmbed和Transfusion。
---
🎯 问题:传统文生图的"分工固化"
现有文生图系统的流程像一个流水线:
文本提示 → [LLM编码文本] → 静态文本嵌入 → [DiT去噪] → VAE潜空间 → 图像
这个流程有几个根深蒂固的问题:
1. LLM的能力被浪费了
现代T2I系统把数十亿参数砸进文本编码器(FLUX.2用24B Mistral Small 3),但这些LLM只干一件事:把文本变成静态向量。然后它就下班了,剩下所有去噪工作丢给DiT独自完成。LLM的世界知识、推理能力、多模态理解——全部闲置。
2. VAE潜空间是"语义孤岛"
VAE latents是低维、局部、重建优化的表征。它们从未被设计为可被语言模型"读取"。即使你想让LLM参与去噪,VAE的潜空间对LLM来说就是一门外语——无法直接输入。
3. 条件信号是静态的
文本嵌入在整个去噪过程中固定不变。但去噪轨迹是动态的:早期噪声强、后期细节多,一个静态的文本信号怎么可能最优适配每个阶段?
4. 测试时计算扩展无路可走
传统方法只能通过增加去噪步数或扩大DiT来扩展测试时计算。条件编码器本身无法成为扩展维度——它只运行一次。
---
⚙️ 核心技术:四步重构文生图流程
1. RAE空间:给LLM一个"能读懂"的接口
Representation Autoencoder (RAE) 是 RepFusion 的基础设施选择。和VAE的关键区别:
| VAE | RAE | |
|---|---|---|
| 编码器 | 自训练 | 冻结的CLIP/DINO等预训练模型 |
| 表征性质 | 低维、压缩、重建导向 | 语义结构化、与视觉基础模型对齐 |
| LLM兼容性 | 差:语义鸿沟 | 好:MLLM已经熟练处理的空间 |
2. 噪声表征直接输入MLLM:打破"分工"的核心操作
这是 RepFusion 最叛逆的设计:
传统:MLLM只输入文本 → 输出文本嵌入
RepFusion:MLLM输入 [文本, 噪声RAE latent] → 输出动态条件信号
具体实现:
# 噪声RAE latent + 时间步嵌入,通过MLP投影到MLLM输入空间
visual_tokens = MLP_Projector(z_t + e_timestep)
# 与文本token拼接,输入MLLM
full_sequence = [text_tokens, visual_tokens]
# 取最后N个隐藏状态(对应视觉token),作为条件信号
c_t = Last_N( MLLM(full_sequence) )
关键细节:
- MLLM保持因果(causal),视觉token在序列末尾,可以attend到所有文本token
- N=576,对应336分辨率下的token数
- MLP Projector是MLLM唯一可训练的组件——主干完全冻结
3. AdaLN-Single:轻量条件注入,无需交叉注意力
| 机制 | Cross-Attention | AdaLN-Single |
|---|---|---|
| 参数 | 1.6B | 1.3B |
| GenEval | 0.69 | 0.70 |
| 原理 | 把条件当独立上下文做注意力 | token-wise尺度/偏移/门控调制 |
4. 动态测试时计算:每一步都重新编码
TextEmbed: LLM运行一次 → 文本嵌入固定复用整个去噪过程
MetaQuery: 可学习查询,可每步重算,但查询与噪声无关
RepFusion: MLLM每一步都重新编码当前噪声表征 z_t → 条件信号随去噪演化
关键实验验证(论文Figure 4):把MetaQuery的查询改为时间步相关,匹配RepFusion的推理FLOPs,GenEval从0.55→0.54(下降)。证明不是重复计算本身带来增益,而是噪声输入的信息性。
这解锁了一个全新的测试时计算扩展维度:可以通过增加MLLM的推理深度(而非DiT规模或去噪步数)来提升生成质量。
---
📊 实验:冻结MLLM > 训练MLLM,这个反直觉的结论被证实了
主结果:GenEval系列基准
| 方法 | GenEval | GenEval++ | GenEval2 | DPG-Bench |
|---|---|---|---|---|
| Transfusion | 0.63 | - | - | - |
| MetaQuery-XL | 0.80† | - | - | 82.05 |
| BLIP-3o 8B | 0.84 | 0.307 | - | 81.60 |
| OmniGen2 | 0.80 | 0.325 | - | 83.57 |
| BAGEL | 0.82 | 0.371 | 23.1† | 84.03 |
| Scale-RAE | 0.83 | - | - | 79.70 |
| RepFusion-SFT (Diff Dec) | 0.87 | 0.669 | 34.9 | 85.11 |
世界知识推理(WISE基准)
| 方法 | 文化 | 时间 | 空间 | 生物 | 物理 | 化学 | 总体 |
|---|---|---|---|---|---|---|---|
| BAGEL | 0.44 | 0.55 | 0.68 | 0.44 | 0.60 | 0.39 | 0.52 |
| RepFusion-SFT | 0.65 | 0.63 | 0.79 | 0.63 | 0.67 | 0.44 | 0.64 |
从TextEmbed到RepFusion的"升级路径"(Figure 6a)
TextEmbed VAE: 0.47
↓ +输入噪声VAE latents
0.54
↓ +RAE空间
0.64 (+10%)
↓ +训练LLM(联合优化)
0.65 (+1%, 边际)
↓ +感知预训练
0.68 (+3%)
↓ **冻结LLM**(保留先验)
**0.70** (+2%, 关键!)
逐步消融揭示了每个组件的贡献:RAE空间贡献最大(+10%),冻结感知预训练MLLM是最后一块拼图(+2%但关键)。
冻结 vs 训练LLM:反直觉但一致
| 设置 | 语言-only LLM | 感知预训练MLLM |
|---|---|---|
| Transfusion-RAE | 训练更好 | 冻结更好 |
| RepFusion-RAE | 训练更好 | 冻结更好(0.70 > 0.68) |
这和NLP中"预训练语言模型冻结后做下游任务"的经验一致,但反了很多T2I领域的直觉——T2I领域一直倾向于端到端训练所有组件。
---
🧠 深度解读:RepFusion 的范式意义
1. "分工"不是最优的
传统T2I系统的"LLM编码文本 + DiT去噪"分工,是一种历史惯性而非最优设计。RepFusion证明:
- LLM可以直接处理噪声视觉状态
- LLM的参与不需要训练其主干
- LLM的参与可以动态适配去噪阶段
2. "感知预训练"是强先验,不该被"训练"覆盖
论文最反直觉的发现是:冻结感知预训练MLLM优于联合训练。这意味着:
- MLLM在视觉理解任务上的预训练,已经编码了"视觉-语言"的强对齐关系
- T2I生成任务的损失函数,如果用来微调MLLM,会破坏这种对齐
- "保留先验"比"适配任务"更重要
3. RAE是T2I的"新底层"
RAE vs VAE不只是技术选型,而是范式选择:
- VAE:为重建优化,语义是副产品
- RAE:为语义优化,重建是副产品
4. 测试时计算的新维度
传统T2I扩展测试时计算只有两个方向: 1. 更多去噪步数(慢) 2. 更大DiT(贵)
RepFusion 增加了第三个方向: 3. 更强的动态条件计算(在条件编码器上扩展推理深度)
这类似于LLM的test-time compute scaling——不是在模型容量上砸钱,而是在推理时更聪明地花钱。
---
⚠️ 局限与延伸
1. RAE解码器质量:RAE Decoder本身的质量是关键。论文比较了RAE Decoder和Diffusion Decoder,后者效果更好(0.78 vs 0.73 GenEval),但RAE Decoder更轻量。未来需要更强大的RAE解码器。
2. 分辨率限制:当前实验主要在336分辨率,高分辨率(1024+)的RAE表征是否同样适合MLLM输入?
3. 训练成本:虽然只微调DiT和MLP,但预训练需要128×H200 GPU,这仍然是巨大的计算投入。
4. 动态条件的开销:每步都运行MLLM增加了推理成本。论文证明增益值得这个开销,但实时应用场景(如交互式生成)可能需要进一步优化。
---
🔗 相关阅读
- 论文原文:arXiv:2606.14700
- 项目页:https://xichenpan.com/repfusion
- 对比基线:
- TextEmbed (Sana, FLUX.2, Lumina-Next) — 静态文本嵌入
- Transfusion — 统一Transformer联合建模
- MetaQuery/BLIP-3o — 可学习查询条件
- BAGEL — 当前SOTA之一
- 关键技术:RAE (Representation Autoencoder), Flow Matching, AdaLN, MLLM pretraining
> RepFusion 的核心启示:在AI系统中,"分工"往往是一种历史惯性,而非最优设计。 当底层技术(RAE)提供了新的接口可能性时,重新思考角色边界可能带来质的飞跃。MLLM不应该只是"给DiT提供文本提示的秘书"——它有能力直接参与去噪过程,而且它的感知预训练先验是如此强大,以至于你不需要训练它,只需要让它"看"。
#RepFusion #文生图 #扩散模型 #MLLM #多模态 #RAE #Meta #NYU #论文解读 #AI研究
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens