ARM：一个7B模型同时理解、生成、编辑图像——离散token的"三头六臂"

——复旦+字节TikTok+字节Seed，用统一离散视觉表示打破"理解靠CLIP、生成靠扩散"的割裂格局

一、引子：多模态的"精神分裂"

现在的多模态大模型，理解和生成是两个世界：

理解用CLIP式连续表示，把图像压成向量，语义强但细节弱；
生成用扩散模型，像素级精细但语义控制全靠文本条件；
编辑更乱，要么用扩散inpainting，要么用外部工具链拼接。

统一架构不是没有尝试过（Chameleon、Emu3、Janus），但离散表示在理解任务上一直打不过连续模型，生成质量也追不上扩散。

ARM（AutoRegressive Multimodal Model）想打破这个僵局——一个7B自回归模型，用一套离散视觉表示，同时搞定理解、生成、编辑三个任务。

---

二、核心架构：冻结SigLIP2 + 4路监督 + 7B自回归 + GRPO对齐

2.1 统一离散视觉分词器（Tokenizer）

组件	规格
基础编码器	SigLIP2-SO400M-512（冻结）
量化	有限标量量化（FSQ），码本65K
投影模块	2组，每组6个transformer块
像素解码器	24块DiT（rectified flow）
语言模型	冻结0.5B Qwen2.5（用于caption loss）
隐空间解码器	FLUX.1[dev]初始化

四路监督目标（同时优化）：

Loss	目的	权重
L_cap（Caption）	语言对齐：用Qwen2.5的caption做交叉熵	1
L_pix（像素重建）	低层保真：rectified flow在像素空间	5
L_sig（Sigmoid对比）	量化嵌入与SigLIP2文本嵌入匹配	5
L_feat（特征蒸馏）	量化表示与原始SigLIP2视觉特征匹配	1

总目标：L_Tok = 1·L_cap + 5·L_pix + 5·L_sig + 1·L_feat

这四路监督是互补的：

Caption → 语义对齐；
Pixel → 像素保真；
Sigmoid对比 → 语言-视觉桥接；
特征蒸馏 → 高层视觉特征保持。

Detokenization：用FLUX.1-based的隐空间扩散模型，28步采样，CFG=1.5。离散token先解码为隐空间表示，再扩散成像素。

2.2 7B自回归模型

基于 Qwen2.5-7B 初始化；
加一层线性层做视觉token预测；
标准next-token预测：所有文本和视觉token统一为序列；
动态分辨率：shape token插入文本prompt，自动适配不同图像尺寸。

四阶段训练：

阶段	Token	关键特性
预训练（PT）	2.5T	原生分辨率，图像在尺寸限制内
持续训练（CT）	2.5T	更高分辨率，更多交错数据
监督微调（SFT）	0.2B	高质量指令跟随数据
强化学习（RL）	-	GRPO对齐生成和编辑

数据混合：

PT：70%文生图 + 10%图生文 + 10%交错视频 + 10%交错网页 + 5%纯文本
CT：55%文生图 + 10%图生文 + 15%交错视频 + 15%交错网页 + 5%纯文本
SFT：50%文生图 + 5%图生文 + 20%交错视频 + 20%交错网页 + 5%纯文本

2.3 GRPO偏好对齐

参数	文生图RL	编辑RL	联合RL
学习率	3×10⁻⁵	5×10⁻⁵	5×10⁻⁵
训练步	280	100	200
GPU	8	40	40
批大小	64	40	40
Rollout	16	16	16
温度	0.7	1.0	1.0
奖励模型	GPT-o3	GPT-4.1	混合
KL系数	0.01	0.01	0.01

奖励标准：

文生图：物体出现、属性、空间关系；
编辑：指令遵循、非目标区域保持、整体视觉质量。

---

三、实验结果：三头六臂，各有胜负

3.1 图像理解

Benchmark	ARM (7B)	对比
POPE	87.3	Janus-Pro 7B: 87.4; Emu3 8B: 85.2
MMBench	80.7	LLaVA-OV 7B: 80.8; Qwen2.5-VL 7B: 83.5
MME Perc	1463	Janus-Pro 7B: 1567; BLIP-3o 8B: 1683
MMMU	40.2	Janus-Pro 7B: 41.0; Qwen2.5-VL 7B: 58.6
GQA	59.8	Janus-Pro 7B: 62.0; Show-o2 7B: 63.1
VQAv2	76.1	BLIP-3o 8B: 83.1; VILA-U 7B: 79.4
SEEDBench	73.1	Janus-Pro 7B: 72.1; BLIP-3o 8B: 77.5

ARM的理解性能与连续统一模型相当或接近，明显超过之前离散统一模型（Emu3、Janus）。

MMMU 40.2 vs Qwen2.5-VL 7B的58.6——说明纯自回归在复杂推理上仍有差距，但POPE 87.3和MMBench 80.7证明了离散表示在视觉理解上不是短板。

3.2 图像生成

GenEval（对象对齐）：

Model	类型	Two Obj	Position	Color	Attri	Overall DPG
Janus-Pro-7B	AR	0.89	0.79	0.66	0.80	86.90/89.32/84.19
ARM	AR	0.91	0.75	0.60	0.79	89.85/92.00/84.48
ARM-RL	AR	0.93	0.89	0.90	0.86	90.14/92.08/86.00
Qwen-Image	Diff	0.92	0.76	0.77	0.87	91.32/94.31/88.32

ARM在GenEval上逼近扩散模型（Qwen-Image 88.32 vs ARM-RL 86.00）。RL对齐后：颜色准确率从0.60→0.90（+50%），位置从0.75→0.89——RL主要改善空间关系和颜色精度。

WISE（推理型生成）：

ARM-RL overall 0.56，超过FLUX.1[Dev]（0.50）、BAGEL（0.52）。物理/化学/空间推理上RL提升明显。

3.3 图像编辑

GEdit-Bench（英文+中文）：

Model	G_SC	G_PQ	G_O
Step1X-Edit	7.09	6.76	6.70
ARM	5.73	7.67	5.75
ARM-RL	6.85	7.68	6.68

ARM的PQ（图像质量）评分7.67-7.68超过所有基线——离散表示在编辑保真上反而有优势（可能因为隐空间编辑比像素级inpainting更精确）。SC（语义一致性）和O（整体）在RL后提升到6.85/6.68，接近Step1X-Edit。

---

四、最意外的发现：RL的跨任务协同

论文提到一个"意外"（论文用了"surprisingly"）的发现：

> 用GRPO优化生成任务时，编辑任务也提升了；优化编辑时，生成也提升了。而且理解性能完全不受影响。

这是跨任务协同——RL在视觉token空间上的对齐，不是零和博弈。统一表示的好处：对生成有用的语义特征，对编辑也管用；对编辑有用的保真约束，也反馈到生成。

这暗示了统一架构的网络效应：三个任务共享同一套表示空间，一个任务上的优化会溢出到其他任务。

---

五、结论：离散统一路线的"可行性证明"

ARM的核心意义不是SOTA（它很多指标不是第一），而是证明了离散统一路线可以走通。

关键设计决策： 1. 冻结SigLIP2做语义锚点，不从头训练视觉编码； 2. 四路监督同时抓语义、像素、语言对齐、特征保真； 3. FLUX.1-based detokenizer桥接离散token和像素空间； 4. GRPO对齐在视觉token上直接做RL，产生跨任务协同。

离散表示的优势：

统一序列建模，一套架构、一套训练流程；
自回归天然支持多模态交错（视频、网页、图文混排）；
推理时单模型服务，不需要CLIP+扩散两套pipeline。

劣势也仍在：

MMMU 40.2 vs Qwen2.5-VL 58.6——复杂推理仍有差距；
生成质量逼近但略低于顶级扩散模型（Qwen-Image 88.32 vs ARM-RL 86.00）；
需要高容量detokenizer（FLUX.1），推理成本不低。

但ARM给出了一条清晰的 roadmap：离散表示 + 强监督分词器 + 自回归统一建模 + RL对齐 = 一个模型同时理解、生成、编辑。这是多模态架构的"大一统"方向。🎯

---

参考与数据来源：

Wang, J., Wang, X., Pan, J., et al., "ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations", arXiv:2606.11188, 2026
机构：复旦大学可信具身智能研究院、字节TikTok、字节Seed
项目页：https://github.com/wdrink/ARM
模型：ARM-7B（Qwen2.5-7B base）
分词器：SigLIP2-SO400M-512 + FSQ 65K码本
训练：5T token（2.5T PT + 2.5T CT + 0.2B SFT）
奖励模型：GPT-o3（文生图）、GPT-4.1（编辑）

#ARM #多模态 #自回归模型 #离散表示 #统一视觉 #文生图 #图像编辑 #GRPO #小凯深度研究 #论文解读

ARM：一个7B模型同时理解、生成、编辑图像——离散token的"三头六臂"

🌟 智谱 GLM-5 已上线