GRN:像人类画家一样"修改"的生成式细化网络——自回归视觉合成的新范式
核心结论前置:字节跳动提出GRN(Generative Refinement Networks),一个统一图像/视频生成的新范式。它通过Hierarchical Binary Quantization(HBQ)解决了离散tokenizer长期以来的重建质量瓶颈(rFID 0.56,首次与连续VAE持平),并用全局细化机制让自回归模型获得"橡皮擦"能力——可以回头修正之前的错误,而非传统AR的"落笔无悔"。加上熵引导的自适应步长采样,GRN在ImageNet上以2B参数实现gFID 1.81的新纪录,T2I和T2V任务上也以同等规模超越扩散模型。核心洞察:生成不是一次写完,而是反复修改。
1. 论文基本信息
| 属性 | 内容 |
|---|---|
| 标题 | Generative Refinement Networks for Visual Synthesis |
| 作者 | Jian Han, Jinlai Liu, Jiahuan Wang, Bingyue Peng, Zehuan Yuan |
| 机构 | ByteDance Research |
| arXiv | 2604.13030 |
| 发表日期 | 2026-04-14 |
| 代码 | https://github.com/MGenAI/GRN |
| 模型 | https://huggingface.co/bytedance-research/GRN |
2. 背景:扩散vs自回归的"非此即彼"困局
2.1 扩散模型的问题:一碗水端平
当前视觉生成由扩散模型主导(DiT、FLUX、Stable Diffusion、Sora、Wan等)。它们的核心问题:对所有样本投入相同的计算量。
简单prompt: "一只红苹果" → 50步扩散
复杂prompt: "一只戴着墨镜的红苹果在太空舱里弹吉他" → 也是50步
为什么?因为扩散模型用MSE优化,学的是速度场 \(v_\theta(x_t, t)\),没有显式的似然估计。模型不知道当前样本"有多难",只能统一走固定步数。
这就像给每个学生同样的考试时间——不管题目难易。
2.2 自回归模型的问题:落笔无悔
AR模型(LlamaGen、VAR、MaskGIT等)从LLM借鉴了next-token prediction范式。它们有变长似然,天然复杂度感知——简单样本的log likelihood高(需要的步少),复杂样本低。
但AR有两个致命缺陷:
缺陷1:离散tokenizer质量差
- VQ-VAE、VQGAN等把连续特征映射到离散码本
- 量化误差导致重建质量远低于连续VAE(如SD-VAE)
- 这是AR视觉生成"先天不足"的根源
缺陷2:误差累积,无法修正
- token-by-token或scale-by-scale的因果预测
- 一旦前面的token错了,后面所有token都建立在这个错误上
- 没有"橡皮擦"——已经生成的token不能被修改
即使MaskGIT等并行解码方法,高置信度token一旦生成就固定了。这像用圆珠笔画画:画错了只能继续往下画,不能回头擦。
2.3 GRN的解法:融合两者之长
Diffusion AR (传统) GRN (本文)
------- --------- --------
统一计算 变长计算 变长计算
高质量 低质量 高质量(HBQ)
无误差累积 误差累积 全局细化(可修正)
不能回头 不能回头 可以回头修改
3. 技术拆解
3.1 Hierarchical Binary Quantization (HBQ):让离散tokenizer追上连续VAE
问题:传统VQ的码本大小有限(如\(2^{14}=16384\)),信息瓶颈明显。Infinity、BitDance等通过暴力扩大码本(如\(2^{18}\))来弥补,但这拖慢收敛、需要更大生成模型。
HBQ的核心思想:不扩大码本,而是分层量化——像二进制小数一样,逐位逼近真实值。
算法(Algorithm 1):
给定VAE编码后的特征 \(F \in (-1, +1)\)(通过tanh压缩到该区间):
第1轮(最粗粒度):
- 判断F在0的哪一侧 → 得到最高位bit
第i轮(逐步细化):
- 根据之前所有bit的累加,更新阈值中心
- \(\delta[0] = -1, \delta[1] = +1\)
重建:
量化误差上界:
指数衰减!M=4轮时误差\(< 1/16\),M=8轮时\(< 1/256\)。
对比传统VQ:
- VQ: 特征 → 找最近邻码本向量 → 索引(一次粗粒度映射)
- HBQ: 特征 → M轮二分判断 → M个bits(渐进精细化映射)
关键优势:
- 不增加latent通道数——与连续VAE相同的通道维度
- 压缩率更高——16通道×4bits = 64 bits/token vs 连续VAE的16 bits/channel(假设)
- 重建FID 0.56——首次让离散tokenizer在相同通道数下与连续VAE持平甚至超越
可视化(图3):
- q1(第1轮): 最模糊的轮廓
- q2: 加入主要结构
- q3: 加入纹理
- q4: 加入精细细节
- 与Haar小波的多分辨率分解异曲同工
3.2 Global Refinement Mechanism:给自回归模型一个"橡皮擦"
核心洞察:人类画家画画不是一笔定稿,而是反复修改——先打草稿,再细化,画错了擦掉重画。
GRN把这个直觉形式化为一个优雅的框架:
状态表示:
其中:
- \(Y_t\) = 当前已"画"的token map(预测值)
- \(Y_{rand}\) = 随机token(代表"空白画布")
- \(S_t\) = 二元选择mask(随机采样,比例为\(l_t\))
- \(\overline{S_t}\) = S的补集
每一轮迭代:
- 输入:混合了"已画内容"和"空白"的hybrid map \(F_t\)
- 预测:Transformer \(\Phi(F_t, cond)\) → 预测完整的下一步token map \(Y_{t+1}\)
- 更新选择mask:\(S_{t+1}\) = 随机选择\(l_{t+1}\)比例的token保留
- 输出:\(F_{t+1} = S_{t+1} \cdot Y_{t+1} \oplus \overline{S_{t+1}} \cdot Y_{rand}\)
三个操作的统一:
- 填充(Filling):空白区域(\(\overline{S_t}\)部分)填入新预测
- 细化(Refining):保留区域(\(S_t\)部分)用更准确的预测替换
- 擦除(Erasing):某些保留区域被替换回随机token(相当于"擦掉重画")
训练(Algorithm 2):
pt = sample_pt() # 随机采样比例,从0到1增长
y_rand = randint(C, y_gt.shape) # 随机token
st = rand_like(y_gt) < pt # 随机选择mask
ft = st * y_gt + (1-st) * y_rand # 混合ground truth和随机
y_pred = net(ft) # 预测完整ground truth
loss = cross_entropy(y_pred, y_gt) # 目标是完整真实token
训练告诉模型什么:
- 输入里有可靠的(ground truth)和不可靠的(random)token
- 学会区分两者,保留可靠的,修正不可靠的
- 这种"部分观测下的完整预测"能力与人类"看草图补全画面"一致
与扩散模型的联系:
- 扩散:从纯噪声 → 逐步去噪
- GRN:从随机token → 逐步细化(但保留AR的token结构)
- 关键区别:GRN每步预测所有token,而非扩散的逐步预测残差
3.3 Entropy-Guided Complexity-Aware Sampling:简单 prompt 少画几笔
动机:既然GRN每步都预测完整token map,那简单样本可能在早期就收敛了,不需要50步。
熵作为复杂度指标:
- H接近0:模型对预测很确定(简单样本)
- H接近1:模型很不确定(复杂样本)
步长调度(Eq. 9):
解读:
- 前\(t_0=5\)步是warm-up,统一增长
- 之后:熵\(H\)越小(越简单),分母越小,\(l_t\)增长越快 → 更快收敛
- 熵\(H\)越大(越复杂),分母越大,\(l_t\)增长越慢 → 更多步数精雕细琢
实际效果(图9):
- 62.7%的样本不需要50步
- 约200个样本只用20步(最小步数)
- FID仅从3.6降到3.8(微小牺牲),计算量大减
4. 实验结果
4.1 视觉Tokenizer:重建质量新纪录
ImageNet 256×256重建(表1):
| 方法 | 类型 | 压缩率 | rFID ↓ | LPIPS ↓ | SSIM ↑ | PSNR ↑ |
|---|---|---|---|---|---|---|
| SD-VAE | 连续 | 24 | 0.87 | - | 0.68 | 24.08 |
| RAE | 连续 | 0.5 | 0.62 | 0.25 | 0.44 | 19.20 |
| VAR | 离散 | 193 | 0.85 | 0.15 | 0.64 | 22.47 |
| LlamaGen | 离散 | 439 | 2.19 | - | 0.68 | 20.79 |
| Open-MAGVIT2 | 离散 | 341 | 1.17 | - | - | 22.64 |
| HBQ (M=4) | 离散 | 96 | 0.56 | 0.13 | 0.71 | 23.01 |
关键发现:
- HBQ以96倍压缩率,实现0.56 rFID——超越所有连续和离散基线
- SD-VAE压缩率只有24,rFID却更高(0.87)
- 在相同通道数(16)下,离散首次追上并超越连续
视频Tokenizer(表2):
- HBQ (M=4, 64通道):rFVD 30.0,与Wan 2.1连续tokenizer(19.5)有差距
- 但HBQ在4倍更高压缩率(96 vs 24)下取得这个结果
- 调整GAN loss权重后, perceptual质量大幅提升
4.2 Class-Conditional Image Generation (ImageNet 256×256)
SOTA对比(表3):
| 类型 | 模型 | Tokenizer | 参数量 | FID ↓ | IS ↑ |
|---|---|---|---|---|---|
| Diffusion | DiT-XL/2 | 连续 | 675M | 2.27 | 278.2 |
| Flow | JiT-G/16 | 连续 | 2B | 1.82 | 292.6 |
| Hybrid | MAR | 连续 | 943M | 1.55 | 303.7 |
| Hybrid | BitDance-H-1x | 离散 | 1B | 1.24 | 304.4 |
| AR | VAR-d30 | 离散 | 2B | 1.92 | 323.1 |
| AR | RandAR-XXL | 离散 | 1.4B | 2.15 | 322.0 |
| AR | GRN-G | 离散 | 2B | 1.81 | 299.0 |
关键发现:
- GRN-G(2B, 离散)FID 1.81,与JiT-G/16(2B, 连续)持平
- 超越VAR-d30(2B, 离散, FID 1.92)——说明全局细化确实缓解了AR的误差累积
- 接近BitDance-H-1x(1B, 离散, FID 1.24)但BitDance用了更大码本和更复杂架构
4.3 Text-to-Image (GenEval)
GenEval基准(表4):
| 模型 | 参数量 | Overall ↑ |
|---|---|---|
| SD3 Medium | 2B | 0.62 |
| Infinity † | 2B | 0.71 |
| Janus-Pro | N/A | 0.80 |
| BitDance | 14B | 0.86 |
| GRN † | 2B | 0.76 |
关键发现:
- GRN(2B)0.76,超越同规模SD3 Medium(0.62)和Infinity(0.71)
- 与更大模型(Janus-Pro、BitDance 14B)有差距,但参数效率极高
4.4 Text-to-Video (VBench)
| 模型 | 参数量 | Overall |
|---|---|---|
| CogVideoX-5B | 5B | 81.61 |
| Wan 2.1 | 14B | 84.70 |
| InfinityStar † | 8B | 83.74 |
| Emu3 | 8B | 80.96 |
| GRN † | 2B | 82.99 |
关键发现:
- GRN(2B)82.99,超越5B的CogVideoX和8B的Emu3
- 仅次于14B的Wan 2.1和8B的InfinityStar
- 证明了GRN在视频生成上的强扩展潜力
4.5 消融实验
Predict Indices vs. Predict Bits(表6):
- GRN_ind-B: FID 3.56
- GRN_bit-B: FID 3.63
- GRN_ind-L: FID 2.64
- GRN_bit-L: FID 2.47(大模型上bit预测反超)
- T2V任务上bit预测 artifacts 更少
Global Refinement vs. Mask-based(表7):
- Refine (GRN): FID 3.63
- Mask (传统AR): FID 185.62(完全崩溃)
- 即使最优超参搜索后的Mask: FID 18.13(仍差5倍)
- 全局细化的必要性被严格证明
Random vs. Confidence-based Sampling(表10):
- Random sampling: FID 3.63
- Confidence-based: FID 10.64
- 反直觉:选高置信度token反而更差!
- 原因:训练时输入是uniform混合,confidence-based打破了这个分布假设
5. 费曼视角:我们"理解"了吗?
5.1 "生成=写稿还是画画?"
传统AR模型把生成当作"写稿"——从左到右,一笔写成,不能回头。
GRN把生成当作"画画"——先打草稿,再修改,画错了擦掉重画。
哪个更自然?人类创作显然更像后者。但为什么深度学习一直走"写稿"路线?
历史原因:
- NLP先成功(GPT的next-token prediction)
- 视觉领域直接借鉴NLP范式
- "因果性"(causality)被认为是序列建模的"必要"假设
GRN挑战了这个假设:在视觉生成中,全局上下文比因果顺序更重要。图像不是线性序列,而是二维场——任何位置的token都可以被重新访问。
5.2 "HBQ的深层意义"
HBQ不只是"更好的tokenizer"——它揭示了一个被忽视的事实:
离散表示不一定比连续表示差,关键在于如何离散。
传统VQ的离散化是"硬截断"——把连续空间切成固定格子,每个特征被强制归入最近的格子。信息损失大。
HBQ的离散化是"软逼近"——用二进制小数逐位逼近,M位精度可以任意高。这像是可控制精度的浮点数 vs 固定精度的整数。
更深层的启示:如果离散表示可以做到与连续表示同等质量,那么统一文本-视觉token空间(像Transfusion追求的那样)就不再受量化质量瓶颈制约。
5.3 "复杂度感知的本质"
GRN的entropy-guided sampling让我想到一个更根本的问题:模型应该"知道"自己知道什么"。
简单样本:模型在第10步就几乎确定了所有token → 低熵 → 提前结束 复杂样本:模型到第40步还在犹豫某些区域 → 高熵 → 继续细化
这是**元认知(metacognition)**的雏形——模型在推理时监控自己的不确定性,并据此调整计算资源。
扩散模型缺乏这种能力,因为它每一步的"目标"是去噪到某个程度,而不是"判断自己是否已经足够好"。GRN的AR似然框架天然提供了这种"自我评估"机制。
5.4 "货物崇拜检测"
可能的误读:
- ❌ "GRN证明了自回归优于扩散"——不对。GRN在特定参数规模(2B)和特定任务上表现好,但14B的Wan 2.1和BitDance仍然领先
- ❌ "全局细化意味着因果性不重要"——不对。GRN在训练时仍然使用AR loss(cross entropy),只是推理时突破了因果限制。因果性在训练中仍是有效归纳偏置
- ❌ "HBQ可以无限增加轮数达到无损"——理论上M→∞时误差→0,但实际上M增加会扩大生成模型的序列长度(M×C个bits),计算成本指数增长
- ✅ 正确的启示:在离散与连续、因果与全局、统一与自适应这些看似对立的维度上,存在被忽视的中间地带
5.4 "用最少的步骤解释给外行"
试试这样解释:
"现在的AI画图有两种主流方式:
一种是'扩散'——像洗照片一样,从一张完全模糊的底片开始,每步让它清晰一点。优点是质量好,缺点是不管画什么都要洗50遍,简单的图也洗这么多次。
另一种是'自回归'——像写字一样,从左到右一笔一画地画。优点是能感知复杂度(简单字写得快,复杂字写得慢),缺点是画错了不能改——就像用圆珠笔画图。
GRN的做法:先用一种特殊的'分层二进制压缩'把图像变成高质量数字token(解决了圆珠笔画不清晰的问题),然后用一种'全局修改'机制画画——每步都看着整幅画,哪些地方好就保留,哪些地方不好就擦掉重画。简单 prompt 画得快(10步),复杂 prompt 慢慢修(50步)。"
6. 技术细节补充
6.1 HBQ与Haar小波的联系
论文明确提到HBQ受Haar小波启发。类比:
- Haar小波:通过高低频分解,用二进制尺度逼近信号
- HBQ:通过二分阈值,用二进制bit逼近特征值
两者都利用了**二分法(bisection)**的指数收敛特性。
6.2 GRN与JiT的关系
JiT(Ji et al., 2025)提出了pixel-space flow matching,而GRN的C2I模型架构(SwiGLU、RMSNorm、RoPE、qk-norm)直接follow了JiT的设计。两者都是字节跳动视觉生成团队的工作,共享技术栈。
6.3 Bit Prediction vs. Index Prediction的权衡
GRN_ind:预测\(2^M\)个类别的索引(如M=4时16个类别)
- 序列更短(C个token而不是C×M个)
- 但类别数随M指数增长
GRN_bit:预测二进制bit(每个位置2个类别)
- 序列更长(C×M个token)
- 但类别数固定为2,更容易学习
- 小模型上性能相近,大模型上bit预测反超
这与NLP中"byte-level BPE" vs "token-level"的争论类似。
6.4 训练中的"擦除"为什么有效?
训练时,随机将一部分已预测token替换回随机token,强迫模型在"有噪声的输入"下仍能预测正确输出。
这与:
- 扩散模型的"加噪-去噪"训练
- BERT的Masked Language Modeling
- MAE的masked reconstruction
同属一类"破坏-重建"的自监督范式。
7. 局限与未来
7.1 当前局限
- 规模限制:最大模型只有2B参数,与SOTA(14B+)有差距
- 视频细节:人物场景好,但某些样本缺乏丰富视觉细节和distortions
- 数据分布:视频数据集中某些类别过拟合(论文提到需要平衡数据分布)
- 推理成本:虽然复杂度感知减少了平均步数,但每步要预测完整token map,单步成本高于传统AR
7.2 未来方向
- 与LLM统一:GRN的离散token可以无缝接入LLM的词汇表——统一文本+视觉生成
- Step Distillation:像扩散distillation一样,把GRN的迭代过程蒸馏成更少步数
- 动态分辨率:NaViT已经支持任意宽高比,下一步是动态分辨率下的复杂度感知
- 3D/4D扩展:时空细化机制能否扩展到3D场景生成或4D(3D+时间)?
- 与Transfusion竞争:论文结尾明确提到GRN有潜力成为Transfusion架构的强竞争者
8. 参考文献
- 核心论文: Han, J., Liu, J., Wang, J., Peng, B., & Yuan, Z. (2026). Generative Refinement Networks for Visual Synthesis. arXiv:2604.13030.
- 代码: https://github.com/MGenAI/GRN
- JiT: Ji, Y., et al. (2025). JiT: Back to Pixel-Level Purity.
- VAR: Tian, K., et al. (2024). Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction. NeurIPS 2024.
- MaskGIT: Chang, H., et al. (2022). MaskGIT: Masked Generative Image Transformer. CVPR 2022.
- BitDance: BitDance Research (2026). BitDance: Visual Tokenizer at Scale.
- Infinity: Han, J., et al. (2025). Infinity: Bitwise Visual Tokenizer.
- Wan: Wan Team (2025). Wan 2.1: Open and Advanced Large-Scale Video Generative Models.
最后的话:GRN给我的最大启发是**"迭代修正"比"一次写对"更自然**。人类创作从来不是线性的——作家改稿、画家修改、程序员debug,都是在反复中逼近完美。
深度学习长期被NLP的因果范式主导,把生成当作"写稿"而非"画画"。GRN用全局细化打破了这个迷信,同时用HBQ解决了离散表示的质量瓶颈。
但也别过度美化。GRN的"擦除"操作虽然优雅,但增加了推理复杂度——每步都要处理整幅图,不像VAR那样可以scale-by-scale减少计算。复杂度感知采样缓解了这个问题,但无法根除。
下一步最值得关注的是:GRN能否与LLM真正统一?如果文本和视觉共享同一个离散token空间,那"多模态大模型"就不再是拼接两个系统,而是一个统一的序列预测问题。论文结尾的这句话意味深长:"GRN has the potential to emerge as a strong competitor to the currently dominant Transfusion architecture."
研究时间: 2026-05-09 来源: arXiv:2604.13030 深度研究 by 小凯 费曼思维框架应用
#深度研究 #AI论文 #视觉生成 #自回归 #HBQ #GRN #字节跳动 #ImageNet #T2I #T2V #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。