ARM:一个7B模型同时理解、生成、编辑图像——离散token的"三头六臂"
——复旦+字节TikTok+字节Seed,用统一离散视觉表示打破"理解靠CLIP、生成靠扩散"的割裂格局
一、引子:多模态的"精神分裂"
现在的多模态大模型,理解和生成是两个世界:
- 理解用CLIP式连续表示,把图像压成向量,语义强但细节弱;
- 生成用扩散模型,像素级精细但语义控制全靠文本条件;
- 编辑更乱,要么用扩散inpainting,要么用外部工具链拼接。
ARM(AutoRegressive Multimodal Model)想打破这个僵局——一个7B自回归模型,用一套离散视觉表示,同时搞定理解、生成、编辑三个任务。
---
二、核心架构:冻结SigLIP2 + 4路监督 + 7B自回归 + GRPO对齐
2.1 统一离散视觉分词器(Tokenizer)
| 组件 | 规格 |
|---|---|
| 基础编码器 | SigLIP2-SO400M-512(冻结) |
| 量化 | 有限标量量化(FSQ),码本65K |
| 投影模块 | 2组,每组6个transformer块 |
| 像素解码器 | 24块DiT(rectified flow) |
| 语言模型 | 冻结0.5B Qwen2.5(用于caption loss) |
| 隐空间解码器 | FLUX.1[dev]初始化 |
| Loss | 目的 | 权重 |
|---|---|---|
| L_cap(Caption) | 语言对齐:用Qwen2.5的caption做交叉熵 | 1 |
| L_pix(像素重建) | 低层保真:rectified flow在像素空间 | 5 |
| L_sig(Sigmoid对比) | 量化嵌入与SigLIP2文本嵌入匹配 | 5 |
| L_feat(特征蒸馏) | 量化表示与原始SigLIP2视觉特征匹配 | 1 |
这四路监督是互补的:
- Caption → 语义对齐;
- Pixel → 像素保真;
- Sigmoid对比 → 语言-视觉桥接;
- 特征蒸馏 → 高层视觉特征保持。
2.2 7B自回归模型
- 基于 Qwen2.5-7B 初始化;
- 加一层线性层做视觉token预测;
- 标准next-token预测:所有文本和视觉token统一为序列;
- 动态分辨率:shape token插入文本prompt,自动适配不同图像尺寸。
| 阶段 | Token | 关键特性 |
|---|---|---|
| 预训练(PT) | 2.5T | 原生分辨率,图像在尺寸限制内 |
| 持续训练(CT) | 2.5T | 更高分辨率,更多交错数据 |
| 监督微调(SFT) | 0.2B | 高质量指令跟随数据 |
| 强化学习(RL) | - | GRPO对齐生成和编辑 |
- PT:70%文生图 + 10%图生文 + 10%交错视频 + 10%交错网页 + 5%纯文本
- CT:55%文生图 + 10%图生文 + 15%交错视频 + 15%交错网页 + 5%纯文本
- SFT:50%文生图 + 5%图生文 + 20%交错视频 + 20%交错网页 + 5%纯文本
| 参数 | 文生图RL | 编辑RL | 联合RL |
|---|---|---|---|
| 学习率 | 3×10⁻⁵ | 5×10⁻⁵ | 5×10⁻⁵ |
| 训练步 | 280 | 100 | 200 |
| GPU | 8 | 40 | 40 |
| 批大小 | 64 | 40 | 40 |
| Rollout | 16 | 16 | 16 |
| 温度 | 0.7 | 1.0 | 1.0 |
| 奖励模型 | GPT-o3 | GPT-4.1 | 混合 |
| KL系数 | 0.01 | 0.01 | 0.01 |
- 文生图:物体出现、属性、空间关系;
- 编辑:指令遵循、非目标区域保持、整体视觉质量。
三、实验结果:三头六臂,各有胜负
3.1 图像理解
| Benchmark | ARM (7B) | 对比 |
|---|---|---|
| POPE | 87.3 | Janus-Pro 7B: 87.4; Emu3 8B: 85.2 |
| MMBench | 80.7 | LLaVA-OV 7B: 80.8; Qwen2.5-VL 7B: 83.5 |
| MME Perc | 1463 | Janus-Pro 7B: 1567; BLIP-3o 8B: 1683 |
| MMMU | 40.2 | Janus-Pro 7B: 41.0; Qwen2.5-VL 7B: 58.6 |
| GQA | 59.8 | Janus-Pro 7B: 62.0; Show-o2 7B: 63.1 |
| VQAv2 | 76.1 | BLIP-3o 8B: 83.1; VILA-U 7B: 79.4 |
| SEEDBench | 73.1 | Janus-Pro 7B: 72.1; BLIP-3o 8B: 77.5 |
MMMU 40.2 vs Qwen2.5-VL 7B的58.6——说明纯自回归在复杂推理上仍有差距,但POPE 87.3和MMBench 80.7证明了离散表示在视觉理解上不是短板。
3.2 图像生成
GenEval(对象对齐):
| Model | 类型 | Two Obj | Position | Color | Attri | Overall DPG |
|---|---|---|---|---|---|---|
| Janus-Pro-7B | AR | 0.89 | 0.79 | 0.66 | 0.80 | 86.90/89.32/84.19 |
| ARM | AR | 0.91 | 0.75 | 0.60 | 0.79 | 89.85/92.00/84.48 |
| ARM-RL | AR | 0.93 | 0.89 | 0.90 | 0.86 | 90.14/92.08/86.00 |
| Qwen-Image | Diff | 0.92 | 0.76 | 0.77 | 0.87 | 91.32/94.31/88.32 |
WISE(推理型生成):
ARM-RL overall 0.56,超过FLUX.1[Dev](0.50)、BAGEL(0.52)。物理/化学/空间推理上RL提升明显。
3.3 图像编辑
GEdit-Bench(英文+中文):
| Model | G_SC | G_PQ | G_O |
|---|---|---|---|
| Step1X-Edit | 7.09 | 6.76 | 6.70 |
| ARM | 5.73 | 7.67 | 5.75 |
| ARM-RL | 6.85 | 7.68 | 6.68 |
---
四、最意外的发现:RL的跨任务协同
论文提到一个"意外"(论文用了"surprisingly")的发现:
> 用GRPO优化生成任务时,编辑任务也提升了;优化编辑时,生成也提升了。而且理解性能完全不受影响。
这是跨任务协同——RL在视觉token空间上的对齐,不是零和博弈。统一表示的好处:对生成有用的语义特征,对编辑也管用;对编辑有用的保真约束,也反馈到生成。
这暗示了统一架构的网络效应:三个任务共享同一套表示空间,一个任务上的优化会溢出到其他任务。
---
五、结论:离散统一路线的"可行性证明"
ARM的核心意义不是SOTA(它很多指标不是第一),而是证明了离散统一路线可以走通。
关键设计决策: 1. 冻结SigLIP2做语义锚点,不从头训练视觉编码; 2. 四路监督同时抓语义、像素、语言对齐、特征保真; 3. FLUX.1-based detokenizer桥接离散token和像素空间; 4. GRPO对齐在视觉token上直接做RL,产生跨任务协同。
离散表示的优势:
- 统一序列建模,一套架构、一套训练流程;
- 自回归天然支持多模态交错(视频、网页、图文混排);
- 推理时单模型服务,不需要CLIP+扩散两套pipeline。
- MMMU 40.2 vs Qwen2.5-VL 58.6——复杂推理仍有差距;
- 生成质量逼近但略低于顶级扩散模型(Qwen-Image 88.32 vs ARM-RL 86.00);
- 需要高容量detokenizer(FLUX.1),推理成本不低。
---
参考与数据来源:
- Wang, J., Wang, X., Pan, J., et al., "ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations", arXiv:2606.11188, 2026
- 机构:复旦大学可信具身智能研究院、字节TikTok、字节Seed
- 项目页:https://github.com/wdrink/ARM
- 模型:ARM-7B(Qwen2.5-7B base)
- 分词器:SigLIP2-SO400M-512 + FSQ 65K码本
- 训练:5T token(2.5T PT + 2.5T CT + 0.2B SFT)
- 奖励模型:GPT-o3(文生图)、GPT-4.1(编辑)
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens