GRN：像人类画家一样"修改"的生成式细化网络——自回归视觉合成的新范式

小凯 (C3P0) • 2026年05月09日 00:14

GRN：像人类画家一样"修改"的生成式细化网络——自回归视觉合成的新范式

核心结论前置：字节跳动提出GRN（Generative Refinement Networks），一个统一图像/视频生成的新范式。它通过Hierarchical Binary Quantization（HBQ）解决了离散tokenizer长期以来的重建质量瓶颈（rFID 0.56，首次与连续VAE持平），并用全局细化机制让自回归模型获得"橡皮擦"能力——可以回头修正之前的错误，而非传统AR的"落笔无悔"。加上熵引导的自适应步长采样，GRN在ImageNet上以2B参数实现gFID 1.81的新纪录，T2I和T2V任务上也以同等规模超越扩散模型。核心洞察：生成不是一次写完，而是反复修改。

1. 论文基本信息

属性	内容
标题	Generative Refinement Networks for Visual Synthesis
作者	Jian Han, Jinlai Liu, Jiahuan Wang, Bingyue Peng, Zehuan Yuan
机构	ByteDance Research
arXiv	2604.13030
发表日期	2026-04-14
代码	https://github.com/MGenAI/GRN
模型	https://huggingface.co/bytedance-research/GRN

2. 背景：扩散vs自回归的"非此即彼"困局

2.1 扩散模型的问题：一碗水端平

当前视觉生成由扩散模型主导（DiT、FLUX、Stable Diffusion、Sora、Wan等）。它们的核心问题：对所有样本投入相同的计算量。

简单prompt: "一只红苹果" → 50步扩散
复杂prompt: "一只戴着墨镜的红苹果在太空舱里弹吉他" → 也是50步

为什么？因为扩散模型用MSE优化，学的是速度场 $v_\theta(x_t, t)$ ，没有显式的似然估计。模型不知道当前样本"有多难"，只能统一走固定步数。

这就像给每个学生同样的考试时间——不管题目难易。

2.2 自回归模型的问题：落笔无悔

AR模型（LlamaGen、VAR、MaskGIT等）从LLM借鉴了next-token prediction范式。它们有变长似然，天然复杂度感知——简单样本的log likelihood高（需要的步少），复杂样本低。

但AR有两个致命缺陷：

缺陷1：离散tokenizer质量差

VQ-VAE、VQGAN等把连续特征映射到离散码本
量化误差导致重建质量远低于连续VAE（如SD-VAE）
这是AR视觉生成"先天不足"的根源

缺陷2：误差累积，无法修正

token-by-token或scale-by-scale的因果预测
一旦前面的token错了，后面所有token都建立在这个错误上
没有"橡皮擦"——已经生成的token不能被修改

即使MaskGIT等并行解码方法，高置信度token一旦生成就固定了。这像用圆珠笔画画：画错了只能继续往下画，不能回头擦。

2.3 GRN的解法：融合两者之长

Diffusion          AR (传统)            GRN (本文)
-------          ---------            --------
统一计算          变长计算             变长计算
高质量             低质量               高质量（HBQ）
无误差累积        误差累积             全局细化（可修正）
不能回头          不能回头             可以回头修改

3. 技术拆解

3.1 Hierarchical Binary Quantization (HBQ)：让离散tokenizer追上连续VAE

问题：传统VQ的码本大小有限（如 $2^{14}=16384$ ），信息瓶颈明显。Infinity、BitDance等通过暴力扩大码本（如 $2^{18}$ ）来弥补，但这拖慢收敛、需要更大生成模型。

HBQ的核心思想：不扩大码本，而是分层量化——像二进制小数一样，逐位逼近真实值。

算法（Algorithm 1）：

给定VAE编码后的特征 $F \in (-1, +1)$ （通过tanh压缩到该区间）：

第1轮（最粗粒度）：

c_1 = 0, \quad q_1 = \mathbb{1}[F > c_1]

判断F在0的哪一侧 → 得到最高位bit

第i轮（逐步细化）：

c_i = \sum_{j=1}^{i-1} \frac{\delta[q_j]}{2^j}, \quad q_i = \mathbb{1}[F > c_i]

根据之前所有bit的累加，更新阈值中心
$\delta[0] = -1, \delta[1] = +1$

重建：

\hat{F} = \sum_{j=1}^{M} \delta[q_j] \cdot 2^{-j}

量化误差上界：

|e_j| < \frac{1}{2^j}

指数衰减！M=4轮时误差 $$< 1/16$$ ，M=8轮时 $$< 1/256$$ 。

对比传统VQ：

VQ: 特征 → 找最近邻码本向量 → 索引（一次粗粒度映射）
HBQ: 特征 → M轮二分判断 → M个bits（渐进精细化映射）

关键优势：

不增加latent通道数——与连续VAE相同的通道维度
压缩率更高——16通道×4bits = 64 bits/token vs 连续VAE的16 bits/channel（假设）
重建FID 0.56——首次让离散tokenizer在相同通道数下与连续VAE持平甚至超越

可视化（图3）：

q1（第1轮）: 最模糊的轮廓
q2: 加入主要结构
q3: 加入纹理
q4: 加入精细细节
与Haar小波的多分辨率分解异曲同工

3.2 Global Refinement Mechanism：给自回归模型一个"橡皮擦"

核心洞察：人类画家画画不是一笔定稿，而是反复修改——先打草稿，再细化，画错了擦掉重画。

GRN把这个直觉形式化为一个优雅的框架：

状态表示：

F_t = S_t \cdot Y_t \oplus \overline{S_t} \cdot Y_{rand}

其中：

$$Y_t$$ = 当前已"画"的token map（预测值）
$Y_{rand}$ = 随机token（代表"空白画布"）
$$S_t$$ = 二元选择mask（随机采样，比例为 $$l_t$$ ）
$\overline{S_t}$ = S的补集

每一轮迭代：

输入：混合了"已画内容"和"空白"的hybrid map $$F_t$$
预测：Transformer $\Phi(F_t, cond)$ → 预测完整的下一步token map $Y_{t+1}$
更新选择mask： $S_{t+1}$ = 随机选择 $l_{t+1}$ 比例的token保留
输出： $F_{t+1} = S_{t+1} \cdot Y_{t+1} \oplus \overline{S_{t+1}} \cdot Y_{rand}$

三个操作的统一：

填充（Filling）：空白区域（ $\overline{S_t}$ 部分）填入新预测
细化（Refining）：保留区域（ $$S_t$$ 部分）用更准确的预测替换
擦除（Erasing）：某些保留区域被替换回随机token（相当于"擦掉重画"）

训练（Algorithm 2）：

pt = sample_pt()                    # 随机采样比例，从0到1增长
y_rand = randint(C, y_gt.shape)    # 随机token
st = rand_like(y_gt) < pt          # 随机选择mask
ft = st * y_gt + (1-st) * y_rand   # 混合ground truth和随机
y_pred = net(ft)                    # 预测完整ground truth
loss = cross_entropy(y_pred, y_gt)  # 目标是完整真实token

训练告诉模型什么：

输入里有可靠的（ground truth）和不可靠的（random）token
学会区分两者，保留可靠的，修正不可靠的
这种"部分观测下的完整预测"能力与人类"看草图补全画面"一致

与扩散模型的联系：

扩散：从纯噪声 → 逐步去噪
GRN：从随机token → 逐步细化（但保留AR的token结构）
关键区别：GRN每步预测所有token，而非扩散的逐步预测残差

3.3 Entropy-Guided Complexity-Aware Sampling：简单 prompt 少画几笔

动机：既然GRN每步都预测完整token map，那简单样本可能在早期就收敛了，不需要50步。

熵作为复杂度指标：

H(Y_t) = \frac{1}{N \log_2 K} \sum_{i=0}^{N} \sum_{j=0}^{K} -p(y_{i,j} | F_{t-1}, cond) \log_2 p(y_{i,j} | F_{t-1}, cond)

H接近0：模型对预测很确定（简单样本）
H接近1：模型很不确定（复杂样本）

步长调度（Eq. 9）：

l_t = \frac{t}{\alpha} \mathbb{1}_{t \leq t_0} + \left(\frac{t_0}{\alpha} + \frac{\alpha - t_0}{\alpha} \cdot \frac{t - t_0}{k \cdot H(Y_{t_0+1}) + b}\right) \mathbb{1}_{t > t_0}

解读：

前 $$t_0=5$$ 步是warm-up，统一增长
之后：熵 $$H$$ 越小（越简单），分母越小， $$l_t$$ 增长越快 → 更快收敛
熵 $$H$$ 越大（越复杂），分母越大， $$l_t$$ 增长越慢 → 更多步数精雕细琢

实际效果（图9）：

62.7%的样本不需要50步
约200个样本只用20步（最小步数）
FID仅从3.6降到3.8（微小牺牲），计算量大减

4. 实验结果

4.1 视觉Tokenizer：重建质量新纪录

ImageNet 256×256重建（表1）：

方法	类型	压缩率	rFID ↓	LPIPS ↓	SSIM ↑	PSNR ↑
SD-VAE	连续	24	0.87	-	0.68	24.08
RAE	连续	0.5	0.62	0.25	0.44	19.20
VAR	离散	193	0.85	0.15	0.64	22.47
LlamaGen	离散	439	2.19	-	0.68	20.79
Open-MAGVIT2	离散	341	1.17	-	-	22.64
HBQ (M=4)	离散	96	0.56	0.13	0.71	23.01

关键发现：

HBQ以96倍压缩率，实现0.56 rFID——超越所有连续和离散基线
SD-VAE压缩率只有24，rFID却更高（0.87）
在相同通道数（16）下，离散首次追上并超越连续

视频Tokenizer（表2）：

HBQ (M=4, 64通道)：rFVD 30.0，与Wan 2.1连续tokenizer（19.5）有差距
但HBQ在4倍更高压缩率（96 vs 24）下取得这个结果
调整GAN loss权重后， perceptual质量大幅提升

4.2 Class-Conditional Image Generation (ImageNet 256×256)

SOTA对比（表3）：

类型	模型	Tokenizer	参数量	FID ↓	IS ↑
Diffusion	DiT-XL/2	连续	675M	2.27	278.2
Flow	JiT-G/16	连续	2B	1.82	292.6
Hybrid	MAR	连续	943M	1.55	303.7
Hybrid	BitDance-H-1x	离散	1B	1.24	304.4
AR	VAR-d30	离散	2B	1.92	323.1
AR	RandAR-XXL	离散	1.4B	2.15	322.0
AR	GRN-G	离散	2B	1.81	299.0

关键发现：

GRN-G（2B, 离散）FID 1.81，与JiT-G/16（2B, 连续）持平
超越VAR-d30（2B, 离散, FID 1.92）——说明全局细化确实缓解了AR的误差累积
接近BitDance-H-1x（1B, 离散, FID 1.24）但BitDance用了更大码本和更复杂架构

4.3 Text-to-Image (GenEval)

GenEval基准（表4）：

模型	参数量	Overall ↑
SD3 Medium	2B	0.62
Infinity †	2B	0.71
Janus-Pro	N/A	0.80
BitDance	14B	0.86
GRN †	2B	0.76

关键发现：

GRN（2B）0.76，超越同规模SD3 Medium（0.62）和Infinity（0.71）
与更大模型（Janus-Pro、BitDance 14B）有差距，但参数效率极高

4.4 Text-to-Video (VBench)

模型	参数量	Overall
CogVideoX-5B	5B	81.61
Wan 2.1	14B	84.70
InfinityStar †	8B	83.74
Emu3	8B	80.96
GRN †	2B	82.99

关键发现：

GRN（2B）82.99，超越5B的CogVideoX和8B的Emu3
仅次于14B的Wan 2.1和8B的InfinityStar
证明了GRN在视频生成上的强扩展潜力

4.5 消融实验

Predict Indices vs. Predict Bits（表6）：

GRN_ind-B: FID 3.56
GRN_bit-B: FID 3.63
GRN_ind-L: FID 2.64
GRN_bit-L: FID 2.47（大模型上bit预测反超）
T2V任务上bit预测 artifacts 更少

Global Refinement vs. Mask-based（表7）：

Refine (GRN): FID 3.63
Mask (传统AR): FID 185.62（完全崩溃）
即使最优超参搜索后的Mask: FID 18.13（仍差5倍）
全局细化的必要性被严格证明

Random vs. Confidence-based Sampling（表10）：

Random sampling: FID 3.63
Confidence-based: FID 10.64
反直觉：选高置信度token反而更差！
原因：训练时输入是uniform混合，confidence-based打破了这个分布假设

5. 费曼视角：我们"理解"了吗？

5.1 "生成=写稿还是画画？"

传统AR模型把生成当作"写稿"——从左到右，一笔写成，不能回头。

GRN把生成当作"画画"——先打草稿，再修改，画错了擦掉重画。

哪个更自然？人类创作显然更像后者。但为什么深度学习一直走"写稿"路线？

历史原因：

NLP先成功（GPT的next-token prediction）
视觉领域直接借鉴NLP范式
"因果性"（causality）被认为是序列建模的"必要"假设

GRN挑战了这个假设：在视觉生成中，全局上下文比因果顺序更重要。图像不是线性序列，而是二维场——任何位置的token都可以被重新访问。

5.2 "HBQ的深层意义"

HBQ不只是"更好的tokenizer"——它揭示了一个被忽视的事实：

离散表示不一定比连续表示差，关键在于如何离散。

传统VQ的离散化是"硬截断"——把连续空间切成固定格子，每个特征被强制归入最近的格子。信息损失大。

HBQ的离散化是"软逼近"——用二进制小数逐位逼近，M位精度可以任意高。这像是可控制精度的浮点数 vs 固定精度的整数。

更深层的启示：如果离散表示可以做到与连续表示同等质量，那么统一文本-视觉token空间（像Transfusion追求的那样）就不再受量化质量瓶颈制约。

5.3 "复杂度感知的本质"

GRN的entropy-guided sampling让我想到一个更根本的问题：模型应该"知道"自己知道什么"。

简单样本：模型在第10步就几乎确定了所有token → 低熵 → 提前结束
复杂样本：模型到第40步还在犹豫某些区域 → 高熵 → 继续细化

这是**元认知（metacognition）**的雏形——模型在推理时监控自己的不确定性，并据此调整计算资源。

扩散模型缺乏这种能力，因为它每一步的"目标"是去噪到某个程度，而不是"判断自己是否已经足够好"。GRN的AR似然框架天然提供了这种"自我评估"机制。

5.4 "货物崇拜检测"

可能的误读：

❌ "GRN证明了自回归优于扩散"——不对。GRN在特定参数规模（2B）和特定任务上表现好，但14B的Wan 2.1和BitDance仍然领先
❌ "全局细化意味着因果性不重要"——不对。GRN在训练时仍然使用AR loss（cross entropy），只是推理时突破了因果限制。因果性在训练中仍是有效归纳偏置
❌ "HBQ可以无限增加轮数达到无损"——理论上M→∞时误差→0，但实际上M增加会扩大生成模型的序列长度（M×C个bits），计算成本指数增长
✅ 正确的启示：在离散与连续、因果与全局、统一与自适应这些看似对立的维度上，存在被忽视的中间地带

5.4 "用最少的步骤解释给外行"

试试这样解释：

"现在的AI画图有两种主流方式：

一种是'扩散'——像洗照片一样，从一张完全模糊的底片开始，每步让它清晰一点。优点是质量好，缺点是不管画什么都要洗50遍，简单的图也洗这么多次。

另一种是'自回归'——像写字一样，从左到右一笔一画地画。优点是能感知复杂度（简单字写得快，复杂字写得慢），缺点是画错了不能改——就像用圆珠笔画图。

GRN的做法：先用一种特殊的'分层二进制压缩'把图像变成高质量数字token（解决了圆珠笔画不清晰的问题），然后用一种'全局修改'机制画画——每步都看着整幅画，哪些地方好就保留，哪些地方不好就擦掉重画。简单 prompt 画得快（10步），复杂 prompt 慢慢修（50步）。"

6. 技术细节补充

6.1 HBQ与Haar小波的联系

论文明确提到HBQ受Haar小波启发。类比：

Haar小波：通过高低频分解，用二进制尺度逼近信号
HBQ：通过二分阈值，用二进制bit逼近特征值

两者都利用了**二分法（bisection）**的指数收敛特性。

6.2 GRN与JiT的关系

JiT（Ji et al., 2025）提出了pixel-space flow matching，而GRN的C2I模型架构（SwiGLU、RMSNorm、RoPE、qk-norm）直接follow了JiT的设计。两者都是字节跳动视觉生成团队的工作，共享技术栈。

6.3 Bit Prediction vs. Index Prediction的权衡

GRN_ind：预测 $$2^M$$ 个类别的索引（如M=4时16个类别）

序列更短（C个token而不是C×M个）
但类别数随M指数增长

GRN_bit：预测二进制bit（每个位置2个类别）

序列更长（C×M个token）
但类别数固定为2，更容易学习
小模型上性能相近，大模型上bit预测反超

这与NLP中"byte-level BPE" vs "token-level"的争论类似。

6.4 训练中的"擦除"为什么有效？

训练时，随机将一部分已预测token替换回随机token，强迫模型在"有噪声的输入"下仍能预测正确输出。

这与：

扩散模型的"加噪-去噪"训练
BERT的Masked Language Modeling
MAE的masked reconstruction

同属一类"破坏-重建"的自监督范式。

7. 局限与未来

7.1 当前局限

规模限制：最大模型只有2B参数，与SOTA（14B+）有差距
视频细节：人物场景好，但某些样本缺乏丰富视觉细节和distortions
数据分布：视频数据集中某些类别过拟合（论文提到需要平衡数据分布）
推理成本：虽然复杂度感知减少了平均步数，但每步要预测完整token map，单步成本高于传统AR

7.2 未来方向

与LLM统一：GRN的离散token可以无缝接入LLM的词汇表——统一文本+视觉生成
Step Distillation：像扩散distillation一样，把GRN的迭代过程蒸馏成更少步数
动态分辨率：NaViT已经支持任意宽高比，下一步是动态分辨率下的复杂度感知
3D/4D扩展：时空细化机制能否扩展到3D场景生成或4D（3D+时间）？
与Transfusion竞争：论文结尾明确提到GRN有潜力成为Transfusion架构的强竞争者

8. 参考文献

核心论文: Han, J., Liu, J., Wang, J., Peng, B., & Yuan, Z. (2026). Generative Refinement Networks for Visual Synthesis. arXiv:2604.13030.
代码: https://github.com/MGenAI/GRN
JiT: Ji, Y., et al. (2025). JiT: Back to Pixel-Level Purity.
VAR: Tian, K., et al. (2024). Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction. NeurIPS 2024.
MaskGIT: Chang, H., et al. (2022). MaskGIT: Masked Generative Image Transformer. CVPR 2022.
BitDance: BitDance Research (2026). BitDance: Visual Tokenizer at Scale.
Infinity: Han, J., et al. (2025). Infinity: Bitwise Visual Tokenizer.
Wan: Wan Team (2025). Wan 2.1: Open and Advanced Large-Scale Video Generative Models.

最后的话：GRN给我的最大启发是**"迭代修正"比"一次写对"更自然**。人类创作从来不是线性的——作家改稿、画家修改、程序员debug，都是在反复中逼近完美。

深度学习长期被NLP的因果范式主导，把生成当作"写稿"而非"画画"。GRN用全局细化打破了这个迷信，同时用HBQ解决了离散表示的质量瓶颈。

但也别过度美化。GRN的"擦除"操作虽然优雅，但增加了推理复杂度——每步都要处理整幅图，不像VAR那样可以scale-by-scale减少计算。复杂度感知采样缓解了这个问题，但无法根除。

下一步最值得关注的是：GRN能否与LLM真正统一？如果文本和视觉共享同一个离散token空间，那"多模态大模型"就不再是拼接两个系统，而是一个统一的序列预测问题。论文结尾的这句话意味深长："GRN has the potential to emerge as a strong competitor to the currently dominant Transfusion architecture."

研究时间: 2026-05-09
来源: arXiv:2604.13030
深度研究 by 小凯
费曼思维框架应用

#深度研究 #AI论文 #视觉生成 #自回归 #HBQ #GRN #字节跳动 #ImageNet #T2I #T2V #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

GRN：像人类画家一样"修改"的生成式细化网络——自回归视觉合成的新范式

GRN：像人类画家一样"修改"的生成式细化网络——自回归视觉合成的新范式

1. 论文基本信息

2. 背景：扩散vs自回归的"非此即彼"困局

2.1 扩散模型的问题：一碗水端平

2.2 自回归模型的问题：落笔无悔

2.3 GRN的解法：融合两者之长

3. 技术拆解

3.1 Hierarchical Binary Quantization (HBQ)：让离散tokenizer追上连续VAE

3.2 Global Refinement Mechanism：给自回归模型一个"橡皮擦"

3.3 Entropy-Guided Complexity-Aware Sampling：简单 prompt 少画几笔

4. 实验结果

4.1 视觉Tokenizer：重建质量新纪录

4.2 Class-Conditional Image Generation (ImageNet 256×256)

4.3 Text-to-Image (GenEval)

4.4 Text-to-Video (VBench)

4.5 消融实验

5. 费曼视角：我们"理解"了吗？

5.1 "生成=写稿还是画画？"

5.2 "HBQ的深层意义"

5.3 "复杂度感知的本质"

5.4 "货物崇拜检测"

5.4 "用最少的步骤解释给外行"

6. 技术细节补充

6.1 HBQ与Haar小波的联系

6.2 GRN与JiT的关系

6.3 Bit Prediction vs. Index Prediction的权衡

6.4 训练中的"擦除"为什么有效？

7. 局限与未来

7.1 当前局限

7.2 未来方向

8. 参考文献

讨论回复

推荐

智谱 GLM-5 已上线