——复旦+字节TikTok+字节Seed,用统一离散视觉表示打破"理解靠CLIP、生成靠扩散"的割裂格局
一、引子:多模态的"精神分裂"
现在的多模态大模型,理解和生成是两个世界:
- 理解用CLIP式连续表示,把图像压成向量,语义强但细节弱;
- 生成用扩散模型,像素级精细但语义控制全靠文本条件;
- 编辑更乱,要么用扩散inpainting,要么用外部工具链拼接。
统一架构不是没有尝试过(Chameleon、Emu3、Janus),但离散表示在理解任务上一直打不过连续模型,生成质量也追不上扩散。
ARM(AutoRegressive Multimodal Model)想打破这个僵局——一个7B自回归模型,用一套离散视觉表示,同时搞定理解、生成、编辑三个任务。
二、核心架构:冻结SigLIP2 + 4路监督 + 7B自回归 + GRPO对齐
2.1 统一离散视觉分词器(Tokenizer)
| 组件 | 规格 |
|---|---|
| 基础编码器 | SigLIP2-SO400M-512(冻结) |
| 量化 | 有限标量量化(FSQ),码本65K |
| 投影模块 | 2组,每组6个transformer块 |
| 像素解码器 | 24块DiT(rectified flow) |
| 语言模型 | 冻结0.5B Qwen2.5(用于caption loss) |
| 隐空间解码器 | FLUX.1[dev]初始化 |
四路监督目标(同时优化):
| Loss | 目的 | 权重 |
|---|---|---|
| L_cap(Caption) | 语言对齐:用Qwen2.5的caption做交叉熵 | 1 |
| L_pix(像素重建) | 低层保真:rectified flow在像素空间 | 5 |
| L_sig(Sigmoid对比) | 量化嵌入与SigLIP2文本嵌入匹配 | 5 |
| L_feat(特征蒸馏) | 量化表示与原始SigLIP2视觉特征匹配 | 1 |
总目标:L_Tok = 1·L_cap + 5·L_pix + 5·L_sig + 1·L_feat
这四路监督是互补的:
- Caption → 语义对齐;
- Pixel → 像素保真;
- Sigmoid对比 → 语言-视觉桥接;
- 特征蒸馏 → 高层视觉特征保持。
Detokenization:用FLUX.1-based的隐空间扩散模型,28步采样,CFG=1.5。离散token先解码为隐空间表示,再扩散成像素。
2.2 7B自回归模型
- 基于 Qwen2.5-7B 初始化;
- 加一层线性层做视觉token预测;
- 标准next-token预测:所有文本和视觉token统一为序列;
- 动态分辨率:shape token插入文本prompt,自动适配不同图像尺寸。
四阶段训练:
| 阶段 | Token | 关键特性 |
|---|---|---|
| 预训练(PT) | 2.5T | 原生分辨率,图像在尺寸限制内 |
| 持续训练(CT) | 2.5T | 更高分辨率,更多交错数据 |
| 监督微调(SFT) | 0.2B | 高质量指令跟随数据 |
| 强化学习(RL) | - | GRPO对齐生成和编辑 |
数据混合:
- PT:70%文生图 + 10%图生文 + 10%交错视频 + 10%交错网页 + 5%纯文本
- CT:55%文生图 + 10%图生文 + 15%交错视频 + 15%交错网页 + 5%纯文本
- SFT:50%文生图 + 5%图生文 + 20%交错视频 + 20%交错网页 + 5%纯文本
2.3 GRPO偏好对齐
| 参数 | 文生图RL | 编辑RL | 联合RL |
|---|---|---|---|
| 学习率 | 3×10⁻⁵ | 5×10⁻⁵ | 5×10⁻⁵ |
| 训练步 | 280 | 100 | 200 |
| GPU | 8 | 40 | 40 |
| 批大小 | 64 | 40 | 40 |
| Rollout | 16 | 16 | 16 |
| 温度 | 0.7 | 1.0 | 1.0 |
| 奖励模型 | GPT-o3 | GPT-4.1 | 混合 |
| KL系数 | 0.01 | 0.01 | 0.01 |
奖励标准:
- 文生图:物体出现、属性、空间关系;
- 编辑:指令遵循、非目标区域保持、整体视觉质量。
三、实验结果:三头六臂,各有胜负
3.1 图像理解
| Benchmark | ARM (7B) | 对比 |
|---|---|---|
| POPE | 87.3 | Janus-Pro 7B: 87.4; Emu3 8B: 85.2 |
| MMBench | 80.7 | LLaVA-OV 7B: 80.8; Qwen2.5-VL 7B: 83.5 |
| MME Perc | 1463 | Janus-Pro 7B: 1567; BLIP-3o 8B: 1683 |
| MMMU | 40.2 | Janus-Pro 7B: 41.0; Qwen2.5-VL 7B: 58.6 |
| GQA | 59.8 | Janus-Pro 7B: 62.0; Show-o2 7B: 63.1 |
| VQAv2 | 76.1 | BLIP-3o 8B: 83.1; VILA-U 7B: 79.4 |
| SEEDBench | 73.1 | Janus-Pro 7B: 72.1; BLIP-3o 8B: 77.5 |
ARM的理解性能与连续统一模型相当或接近,明显超过之前离散统一模型(Emu3、Janus)。
MMMU 40.2 vs Qwen2.5-VL 7B的58.6——说明纯自回归在复杂推理上仍有差距,但POPE 87.3和MMBench 80.7证明了离散表示在视觉理解上不是短板。
3.2 图像生成
GenEval(对象对齐):
| Model | 类型 | Two Obj | Position | Color | Attri | Overall DPG |
|---|---|---|---|---|---|---|
| Janus-Pro-7B | AR | 0.89 | 0.79 | 0.66 | 0.80 | 86.90/89.32/84.19 |
| ARM | AR | 0.91 | 0.75 | 0.60 | 0.79 | 89.85/92.00/84.48 |
| ARM-RL | AR | 0.93 | 0.89 | 0.90 | 0.86 | 90.14/92.08/86.00 |
| Qwen-Image | Diff | 0.92 | 0.76 | 0.77 | 0.87 | 91.32/94.31/88.32 |
ARM在GenEval上逼近扩散模型(Qwen-Image 88.32 vs ARM-RL 86.00)。RL对齐后:颜色准确率从0.60→0.90(+50%),位置从0.75→0.89——RL主要改善空间关系和颜色精度。
WISE(推理型生成):
ARM-RL overall 0.56,超过FLUX.1[Dev](0.50)、BAGEL(0.52)。物理/化学/空间推理上RL提升明显。
3.3 图像编辑
GEdit-Bench(英文+中文):
| Model | G_SC | G_PQ | G_O |
|---|---|---|---|
| Step1X-Edit | 7.09 | 6.76 | 6.70 |
| ARM | 5.73 | 7.67 | 5.75 |
| ARM-RL | 6.85 | 7.68 | 6.68 |
ARM的PQ(图像质量)评分7.67-7.68超过所有基线——离散表示在编辑保真上反而有优势(可能因为隐空间编辑比像素级inpainting更精确)。SC(语义一致性)和O(整体)在RL后提升到6.85/6.68,接近Step1X-Edit。
四、最意外的发现:RL的跨任务协同
论文提到一个"意外"(论文用了"surprisingly")的发现:
用GRPO优化生成任务时,编辑任务也提升了;优化编辑时,生成也提升了。而且理解性能完全不受影响。
这是跨任务协同——RL在视觉token空间上的对齐,不是零和博弈。统一表示的好处:对生成有用的语义特征,对编辑也管用;对编辑有用的保真约束,也反馈到生成。
这暗示了统一架构的网络效应:三个任务共享同一套表示空间,一个任务上的优化会溢出到其他任务。
五、结论:离散统一路线的"可行性证明"
ARM的核心意义不是SOTA(它很多指标不是第一),而是证明了离散统一路线可以走通。
关键设计决策:
- 冻结SigLIP2做语义锚点,不从头训练视觉编码;
- 四路监督同时抓语义、像素、语言对齐、特征保真;
- FLUX.1-based detokenizer桥接离散token和像素空间;
- GRPO对齐在视觉token上直接做RL,产生跨任务协同。
离散表示的优势:
- 统一序列建模,一套架构、一套训练流程;
- 自回归天然支持多模态交错(视频、网页、图文混排);
- 推理时单模型服务,不需要CLIP+扩散两套pipeline。
劣势也仍在:
- MMMU 40.2 vs Qwen2.5-VL 58.6——复杂推理仍有差距;
- 生成质量逼近但略低于顶级扩散模型(Qwen-Image 88.32 vs ARM-RL 86.00);
- 需要高容量detokenizer(FLUX.1),推理成本不低。
但ARM给出了一条清晰的 roadmap:离散表示 + 强监督分词器 + 自回归统一建模 + RL对齐 = 一个模型同时理解、生成、编辑。这是多模态架构的"大一统"方向。🎯
参考与数据来源:
- Wang, J., Wang, X., Pan, J., et al., "ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations", arXiv:2606.11188, 2026
- 机构:复旦大学可信具身智能研究院、字节TikTok、字节Seed
- 项目页:https://github.com/wdrink/ARM
- 模型:ARM-7B(Qwen2.5-7B base)
- 分词器:SigLIP2-SO400M-512 + FSQ 65K码本
- 训练:5T token(2.5T PT + 2.5T CT + 0.2B SFT)
- 奖励模型:GPT-o3(文生图)、GPT-4.1(编辑)
#ARM #多模态 #自回归模型 #离散表示 #统一视觉 #文生图 #图像编辑 #GRPO #小凯深度研究 #论文解读
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。