RepFusion：当文生图的"分工"被打破——Meta让MLLM从"文本编码器"升级为"视觉去噪参与者"

> 论文：RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space > arXiv: 2606.14700 | 2026年6月 > 机构：Meta AI × New York University > 项目页：https://xichenpan.com/repfusion

---

🔥 一句话总结

RepFusion 做了一件"反常识"的事：它把预训练的MLLM（多模态大语言模型）塞进了扩散去噪的每一步——不是让它只编码文本提示，而是让它直接"看"当前噪声状态，动态输出条件信号。更反直觉的是：冻结MLLM比训练MLLM效果更好。GenEval上提升30%，参数利用率远超TextEmbed和Transfusion。

---

🎯 问题：传统文生图的"分工固化"

现有文生图系统的流程像一个流水线：

文本提示 → [LLM编码文本] → 静态文本嵌入 → [DiT去噪] → VAE潜空间 → 图像

这个流程有几个根深蒂固的问题：

1. LLM的能力被浪费了

现代T2I系统把数十亿参数砸进文本编码器（FLUX.2用24B Mistral Small 3），但这些LLM只干一件事：把文本变成静态向量。然后它就下班了，剩下所有去噪工作丢给DiT独自完成。LLM的世界知识、推理能力、多模态理解——全部闲置。

2. VAE潜空间是"语义孤岛"

VAE latents是低维、局部、重建优化的表征。它们从未被设计为可被语言模型"读取"。即使你想让LLM参与去噪，VAE的潜空间对LLM来说就是一门外语——无法直接输入。

3. 条件信号是静态的

文本嵌入在整个去噪过程中固定不变。但去噪轨迹是动态的：早期噪声强、后期细节多，一个静态的文本信号怎么可能最优适配每个阶段？

4. 测试时计算扩展无路可走

传统方法只能通过增加去噪步数或扩大DiT来扩展测试时计算。条件编码器本身无法成为扩展维度——它只运行一次。

---

⚙️ 核心技术：四步重构文生图流程

1. RAE空间：给LLM一个"能读懂"的接口

Representation Autoencoder (RAE) 是 RepFusion 的基础设施选择。和VAE的关键区别：

	VAE	RAE
编码器	自训练	冻结的CLIP/DINO等预训练模型
表征性质	低维、压缩、重建导向	语义结构化、与视觉基础模型对齐
LLM兼容性	差：语义鸿沟	好：MLLM已经熟练处理的空间

RAE把T2I带入了MLLMs已经熟练处理的表征空间，为LLM从"文本编码器"升级为"视觉去噪参与者"创造了天然接口。

2. 噪声表征直接输入MLLM：打破"分工"的核心操作

这是 RepFusion 最叛逆的设计：

传统：MLLM只输入文本 → 输出文本嵌入
RepFusion：MLLM输入 [文本, 噪声RAE latent] → 输出动态条件信号

具体实现：

# 噪声RAE latent + 时间步嵌入，通过MLP投影到MLLM输入空间
visual_tokens = MLP_Projector(z_t + e_timestep)

# 与文本token拼接，输入MLLM
full_sequence = [text_tokens, visual_tokens]

# 取最后N个隐藏状态（对应视觉token），作为条件信号
c_t = Last_N( MLLM(full_sequence) )

关键细节：

MLLM保持因果（causal），视觉token在序列末尾，可以attend到所有文本token
N=576，对应336分辨率下的token数
MLP Projector是MLLM唯一可训练的组件——主干完全冻结

3. AdaLN-Single：轻量条件注入，无需交叉注意力

机制	Cross-Attention	AdaLN-Single
参数	1.6B	1.3B
GenEval	0.69	0.70
原理	把条件当独立上下文做注意力	token-wise尺度/偏移/门控调制

AdaLN-Single 的核心优势：利用RAE与DiT的token对齐性——每个RAE token对应一个DiT token，可以直接做逐token调制，不需要额外的交叉注意力模块。

4. 动态测试时计算：每一步都重新编码

TextEmbed:  LLM运行一次 → 文本嵌入固定复用整个去噪过程
MetaQuery:  可学习查询，可每步重算，但查询与噪声无关
RepFusion:  MLLM每一步都重新编码当前噪声表征 z_t → 条件信号随去噪演化

关键实验验证（论文Figure 4）：把MetaQuery的查询改为时间步相关，匹配RepFusion的推理FLOPs，GenEval从0.55→0.54（下降）。证明不是重复计算本身带来增益，而是噪声输入的信息性。

这解锁了一个全新的测试时计算扩展维度：可以通过增加MLLM的推理深度（而非DiT规模或去噪步数）来提升生成质量。

---

📊 实验：冻结MLLM > 训练MLLM，这个反直觉的结论被证实了

主结果：GenEval系列基准

方法	GenEval	GenEval++	GenEval2	DPG-Bench
Transfusion	0.63	-	-	-
MetaQuery-XL	0.80†	-	-	82.05
BLIP-3o 8B	0.84	0.307	-	81.60
OmniGen2	0.80	0.325	-	83.57
BAGEL	0.82	0.371	23.1†	84.03
Scale-RAE	0.83	-	-	79.70
RepFusion-SFT (Diff Dec)	0.87	0.669	34.9	85.11

GenEval2（Soft-TIFA评估，抗benchmark drift）：RepFusion预训练即达30.2，远超BAGEL的23.1 GenEval++（更严格）：RepFusion-SFT达0.707，显著领先

世界知识推理（WISE基准）

方法	文化	时间	空间	生物	物理	化学	总体
BAGEL	0.44	0.55	0.68	0.44	0.60	0.39	0.52
RepFusion-SFT	0.65	0.63	0.79	0.63	0.67	0.44	0.64

RepFusion在需要世界知识的生成任务上碾压BAGEL——因为MLLM的世界知识直接被激活了。

从TextEmbed到RepFusion的"升级路径"（Figure 6a）

TextEmbed VAE: 0.47
    ↓ +输入噪声VAE latents
    0.54
    ↓ +RAE空间
    0.64  (+10%)
    ↓ +训练LLM（联合优化）
    0.65  (+1%, 边际)
    ↓ +感知预训练
    0.68  (+3%)
    ↓ **冻结LLM**（保留先验）
    **0.70**  (+2%, 关键!)

逐步消融揭示了每个组件的贡献：RAE空间贡献最大（+10%），冻结感知预训练MLLM是最后一块拼图（+2%但关键）。

冻结 vs 训练LLM：反直觉但一致

设置	语言-only LLM	感知预训练MLLM
Transfusion-RAE	训练更好	冻结更好
RepFusion-RAE	训练更好	冻结更好（0.70 > 0.68）

关键洞察：多模态感知预训练（MLLM在大量图文对上预训练）已经提供了极强的视觉-语言对齐先验。联合训练反而破坏了这个先验，因为生成任务的损失函数会"拉偏"MLLM的表征空间。

这和NLP中"预训练语言模型冻结后做下游任务"的经验一致，但反了很多T2I领域的直觉——T2I领域一直倾向于端到端训练所有组件。

---

🧠 深度解读：RepFusion 的范式意义

1. "分工"不是最优的

传统T2I系统的"LLM编码文本 + DiT去噪"分工，是一种历史惯性而非最优设计。RepFusion证明：

LLM可以直接处理噪声视觉状态
LLM的参与不需要训练其主干
LLM的参与可以动态适配去噪阶段

这打开了T2I架构设计的新空间：LLM不再只是"条件提供者"，而是"去噪协作者"。

2. "感知预训练"是强先验，不该被"训练"覆盖

论文最反直觉的发现是：冻结感知预训练MLLM优于联合训练。这意味着：

MLLM在视觉理解任务上的预训练，已经编码了"视觉-语言"的强对齐关系
T2I生成任务的损失函数，如果用来微调MLLM，会破坏这种对齐
"保留先验"比"适配任务"更重要

这和领域自适应中的一个经典原则呼应：不要破坏源域已经学到的好东西。

3. RAE是T2I的"新底层"

RAE vs VAE不只是技术选型，而是范式选择：

VAE：为重建优化，语义是副产品
RAE：为语义优化，重建是副产品

当LLM要成为T2I的核心参与者时，表征空间必须是LLM能"读"的。RAE恰好提供了这个接口。

4. 测试时计算的新维度

传统T2I扩展测试时计算只有两个方向： 1. 更多去噪步数（慢） 2. 更大DiT（贵）

RepFusion 增加了第三个方向： 3. 更强的动态条件计算（在条件编码器上扩展推理深度）

这类似于LLM的test-time compute scaling——不是在模型容量上砸钱，而是在推理时更聪明地花钱。

---

⚠️ 局限与延伸

1. RAE解码器质量：RAE Decoder本身的质量是关键。论文比较了RAE Decoder和Diffusion Decoder，后者效果更好（0.78 vs 0.73 GenEval），但RAE Decoder更轻量。未来需要更强大的RAE解码器。

2. 分辨率限制：当前实验主要在336分辨率，高分辨率（1024+）的RAE表征是否同样适合MLLM输入？

3. 训练成本：虽然只微调DiT和MLP，但预训练需要128×H200 GPU，这仍然是巨大的计算投入。

4. 动态条件的开销：每步都运行MLLM增加了推理成本。论文证明增益值得这个开销，但实时应用场景（如交互式生成）可能需要进一步优化。

---

🔗 相关阅读

论文原文：arXiv:2606.14700
项目页：https://xichenpan.com/repfusion
对比基线：
TextEmbed (Sana, FLUX.2, Lumina-Next) — 静态文本嵌入
Transfusion — 统一Transformer联合建模
MetaQuery/BLIP-3o — 可学习查询条件
BAGEL — 当前SOTA之一
关键技术：RAE (Representation Autoencoder), Flow Matching, AdaLN, MLLM pretraining

---

> RepFusion 的核心启示：在AI系统中，"分工"往往是一种历史惯性，而非最优设计。 当底层技术（RAE）提供了新的接口可能性时，重新思考角色边界可能带来质的飞跃。MLLM不应该只是"给DiT提供文本提示的秘书"——它有能力直接参与去噪过程，而且它的感知预训练先验是如此强大，以至于你不需要训练它，只需要让它"看"。

#RepFusion #文生图 #扩散模型 #MLLM #多模态 #RAE #Meta #NYU #论文解读 #AI研究