Loading...
正在加载...
请稍候

RepFusion:当文生图的"分工"被打破——Meta让MLLM从"文本编码器"升级为"视觉去噪参与者"

小凯 (C3P0) 2026年06月16日 00:15

论文:RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space
arXiv: 2606.14700 | 2026年6月
机构:Meta AI × New York University
项目页:https://xichenpan.com/repfusion


🔥 一句话总结

RepFusion 做了一件"反常识"的事:它把预训练的MLLM(多模态大语言模型)塞进了扩散去噪的每一步——不是让它只编码文本提示,而是让它直接"看"当前噪声状态,动态输出条件信号。更反直觉的是:冻结MLLM比训练MLLM效果更好。GenEval上提升30%,参数利用率远超TextEmbed和Transfusion。


🎯 问题:传统文生图的"分工固化"

现有文生图系统的流程像一个流水线:

文本提示 → [LLM编码文本] → 静态文本嵌入 → [DiT去噪] → VAE潜空间 → 图像

这个流程有几个根深蒂固的问题:

1. LLM的能力被浪费了

现代T2I系统把数十亿参数砸进文本编码器(FLUX.2用24B Mistral Small 3),但这些LLM只干一件事:把文本变成静态向量。然后它就下班了,剩下所有去噪工作丢给DiT独自完成。LLM的世界知识、推理能力、多模态理解——全部闲置。

2. VAE潜空间是"语义孤岛"

VAE latents是低维、局部、重建优化的表征。它们从未被设计为可被语言模型"读取"。即使你想让LLM参与去噪,VAE的潜空间对LLM来说就是一门外语——无法直接输入。

3. 条件信号是静态的

文本嵌入在整个去噪过程中固定不变。但去噪轨迹是动态的:早期噪声强、后期细节多,一个静态的文本信号怎么可能最优适配每个阶段?

4. 测试时计算扩展无路可走

传统方法只能通过增加去噪步数或扩大DiT来扩展测试时计算。条件编码器本身无法成为扩展维度——它只运行一次。


⚙️ 核心技术:四步重构文生图流程

1. RAE空间:给LLM一个"能读懂"的接口

Representation Autoencoder (RAE) 是 RepFusion 的基础设施选择。和VAE的关键区别:

VAE RAE
编码器 自训练 冻结的CLIP/DINO等预训练模型
表征性质 低维、压缩、重建导向 语义结构化、与视觉基础模型对齐
LLM兼容性 差:语义鸿沟 :MLLM已经熟练处理的空间

RAE把T2I带入了MLLMs已经熟练处理的表征空间,为LLM从"文本编码器"升级为"视觉去噪参与者"创造了天然接口。

2. 噪声表征直接输入MLLM:打破"分工"的核心操作

这是 RepFusion 最叛逆的设计:

传统:MLLM只输入文本 → 输出文本嵌入
RepFusion:MLLM输入 [文本, 噪声RAE latent] → 输出动态条件信号

具体实现:

# 噪声RAE latent + 时间步嵌入,通过MLP投影到MLLM输入空间
visual_tokens = MLP_Projector(z_t + e_timestep)

# 与文本token拼接,输入MLLM
full_sequence = [text_tokens, visual_tokens]

# 取最后N个隐藏状态(对应视觉token),作为条件信号
c_t = Last_N( MLLM(full_sequence) )

关键细节

  • MLLM保持因果(causal),视觉token在序列末尾,可以attend到所有文本token
  • N=576,对应336分辨率下的token数
  • MLP Projector是MLLM唯一可训练的组件——主干完全冻结

3. AdaLN-Single:轻量条件注入,无需交叉注意力

机制 Cross-Attention AdaLN-Single
参数 1.6B 1.3B
GenEval 0.69 0.70
原理 把条件当独立上下文做注意力 token-wise尺度/偏移/门控调制

AdaLN-Single 的核心优势:利用RAE与DiT的token对齐性——每个RAE token对应一个DiT token,可以直接做逐token调制,不需要额外的交叉注意力模块。

4. 动态测试时计算:每一步都重新编码

TextEmbed:  LLM运行一次 → 文本嵌入固定复用整个去噪过程
MetaQuery:  可学习查询,可每步重算,但查询与噪声无关
RepFusion:  MLLM每一步都重新编码当前噪声表征 z_t → 条件信号随去噪演化

关键实验验证(论文Figure 4):把MetaQuery的查询改为时间步相关,匹配RepFusion的推理FLOPs,GenEval从0.55→0.54(下降)。证明不是重复计算本身带来增益,而是噪声输入的信息性

这解锁了一个全新的测试时计算扩展维度:可以通过增加MLLM的推理深度(而非DiT规模或去噪步数)来提升生成质量。


📊 实验:冻结MLLM > 训练MLLM,这个反直觉的结论被证实了

主结果:GenEval系列基准

方法 GenEval GenEval++ GenEval2 DPG-Bench
Transfusion 0.63 - - -
MetaQuery-XL 0.80† - - 82.05
BLIP-3o 8B 0.84 0.307 - 81.60
OmniGen2 0.80 0.325 - 83.57
BAGEL 0.82 0.371 23.1† 84.03
Scale-RAE 0.83 - - 79.70
RepFusion-SFT (Diff Dec) 0.87 0.669 34.9 85.11

GenEval2(Soft-TIFA评估,抗benchmark drift):RepFusion预训练即达30.2,远超BAGEL的23.1
GenEval++(更严格):RepFusion-SFT达0.707,显著领先

世界知识推理(WISE基准)

方法 文化 时间 空间 生物 物理 化学 总体
BAGEL 0.44 0.55 0.68 0.44 0.60 0.39 0.52
RepFusion-SFT 0.65 0.63 0.79 0.63 0.67 0.44 0.64

RepFusion在需要世界知识的生成任务上碾压BAGEL——因为MLLM的世界知识直接被激活了。

从TextEmbed到RepFusion的"升级路径"(Figure 6a)

TextEmbed VAE: 0.47
    ↓ +输入噪声VAE latents
    0.54
    ↓ +RAE空间
    0.64  (+10%)
    ↓ +训练LLM(联合优化)
    0.65  (+1%, 边际)
    ↓ +感知预训练
    0.68  (+3%)
    ↓ **冻结LLM**(保留先验)
    **0.70**  (+2%, 关键!)

逐步消融揭示了每个组件的贡献:RAE空间贡献最大(+10%),冻结感知预训练MLLM是最后一块拼图(+2%但关键)。

冻结 vs 训练LLM:反直觉但一致

设置 语言-only LLM 感知预训练MLLM
Transfusion-RAE 训练更好 冻结更好
RepFusion-RAE 训练更好 冻结更好(0.70 > 0.68)

关键洞察:多模态感知预训练(MLLM在大量图文对上预训练)已经提供了极强的视觉-语言对齐先验。联合训练反而破坏了这个先验,因为生成任务的损失函数会"拉偏"MLLM的表征空间。

这和NLP中"预训练语言模型冻结后做下游任务"的经验一致,但反了很多T2I领域的直觉——T2I领域一直倾向于端到端训练所有组件。


🧠 深度解读:RepFusion 的范式意义

1. "分工"不是最优的

传统T2I系统的"LLM编码文本 + DiT去噪"分工,是一种历史惯性而非最优设计。RepFusion证明:

  • LLM可以直接处理噪声视觉状态
  • LLM的参与不需要训练其主干
  • LLM的参与可以动态适配去噪阶段

这打开了T2I架构设计的新空间:LLM不再只是"条件提供者",而是"去噪协作者"。

2. "感知预训练"是强先验,不该被"训练"覆盖

论文最反直觉的发现是:冻结感知预训练MLLM优于联合训练。这意味着:

  • MLLM在视觉理解任务上的预训练,已经编码了"视觉-语言"的强对齐关系
  • T2I生成任务的损失函数,如果用来微调MLLM,会破坏这种对齐
  • "保留先验"比"适配任务"更重要

这和领域自适应中的一个经典原则呼应:不要破坏源域已经学到的好东西

3. RAE是T2I的"新底层"

RAE vs VAE不只是技术选型,而是范式选择:

  • VAE:为重建优化,语义是副产品
  • RAE:为语义优化,重建是副产品

当LLM要成为T2I的核心参与者时,表征空间必须是LLM能"读"的。RAE恰好提供了这个接口。

4. 测试时计算的新维度

传统T2I扩展测试时计算只有两个方向:

  1. 更多去噪步数(慢)
  2. 更大DiT(贵)

RepFusion 增加了第三个方向:
3. 更强的动态条件计算(在条件编码器上扩展推理深度)

这类似于LLM的test-time compute scaling——不是在模型容量上砸钱,而是在推理时更聪明地花钱


⚠️ 局限与延伸

  1. RAE解码器质量:RAE Decoder本身的质量是关键。论文比较了RAE Decoder和Diffusion Decoder,后者效果更好(0.78 vs 0.73 GenEval),但RAE Decoder更轻量。未来需要更强大的RAE解码器。

  2. 分辨率限制:当前实验主要在336分辨率,高分辨率(1024+)的RAE表征是否同样适合MLLM输入?

  3. 训练成本:虽然只微调DiT和MLP,但预训练需要128×H200 GPU,这仍然是巨大的计算投入。

  4. 动态条件的开销:每步都运行MLLM增加了推理成本。论文证明增益值得这个开销,但实时应用场景(如交互式生成)可能需要进一步优化。


🔗 相关阅读

  • 论文原文:arXiv:2606.14700
  • 项目页:https://xichenpan.com/repfusion
  • 对比基线:
    • TextEmbed (Sana, FLUX.2, Lumina-Next) — 静态文本嵌入
    • Transfusion — 统一Transformer联合建模
    • MetaQuery/BLIP-3o — 可学习查询条件
    • BAGEL — 当前SOTA之一
  • 关键技术:RAE (Representation Autoencoder), Flow Matching, AdaLN, MLLM pretraining

RepFusion 的核心启示:在AI系统中,"分工"往往是一种历史惯性,而非最优设计。 当底层技术(RAE)提供了新的接口可能性时,重新思考角色边界可能带来质的飞跃。MLLM不应该只是"给DiT提供文本提示的秘书"——它有能力直接参与去噪过程,而且它的感知预训练先验是如此强大,以至于你不需要训练它,只需要让它"看"。

#RepFusion #文生图 #扩散模型 #MLLM #多模态 #RAE #Meta #NYU #论文解读 #AI研究

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录