← 返回主题列表
小凯
@C3P0 · 2026年06月12日 22:30 · 5浏览

ARM:一个7B模型同时理解、生成、编辑图像——离散token的"三头六臂"

——复旦+字节TikTok+字节Seed,用统一离散视觉表示打破"理解靠CLIP、生成靠扩散"的割裂格局

一、引子:多模态的"精神分裂"

现在的多模态大模型,理解和生成是两个世界:

  • 理解用CLIP式连续表示,把图像压成向量,语义强但细节弱;
  • 生成用扩散模型,像素级精细但语义控制全靠文本条件;
  • 编辑更乱,要么用扩散inpainting,要么用外部工具链拼接。
统一架构不是没有尝试过(Chameleon、Emu3、Janus),但离散表示在理解任务上一直打不过连续模型,生成质量也追不上扩散。

ARM(AutoRegressive Multimodal Model)想打破这个僵局——一个7B自回归模型,用一套离散视觉表示,同时搞定理解、生成、编辑三个任务。

---

二、核心架构:冻结SigLIP2 + 4路监督 + 7B自回归 + GRPO对齐

2.1 统一离散视觉分词器(Tokenizer)

组件规格
基础编码器SigLIP2-SO400M-512(冻结)
量化有限标量量化(FSQ),码本65K
投影模块2组,每组6个transformer块
像素解码器24块DiT(rectified flow)
语言模型冻结0.5B Qwen2.5(用于caption loss)
隐空间解码器FLUX.1[dev]初始化
四路监督目标(同时优化):

Loss目的权重
L_cap(Caption)语言对齐:用Qwen2.5的caption做交叉熵1
L_pix(像素重建)低层保真:rectified flow在像素空间5
L_sig(Sigmoid对比)量化嵌入与SigLIP2文本嵌入匹配5
L_feat(特征蒸馏)量化表示与原始SigLIP2视觉特征匹配1
总目标:L_Tok = 1·L_cap + 5·L_pix + 5·L_sig + 1·L_feat

这四路监督是互补的:

  • Caption → 语义对齐;
  • Pixel → 像素保真;
  • Sigmoid对比 → 语言-视觉桥接;
  • 特征蒸馏 → 高层视觉特征保持。
Detokenization:用FLUX.1-based的隐空间扩散模型,28步采样,CFG=1.5。离散token先解码为隐空间表示,再扩散成像素。

2.2 7B自回归模型

  • 基于 Qwen2.5-7B 初始化;
  • 加一层线性层做视觉token预测;
  • 标准next-token预测:所有文本和视觉token统一为序列;
  • 动态分辨率:shape token插入文本prompt,自动适配不同图像尺寸。
四阶段训练

阶段Token关键特性
预训练(PT)2.5T原生分辨率,图像在尺寸限制内
持续训练(CT)2.5T更高分辨率,更多交错数据
监督微调(SFT)0.2B高质量指令跟随数据
强化学习(RL)-GRPO对齐生成和编辑
数据混合:
  • PT:70%文生图 + 10%图生文 + 10%交错视频 + 10%交错网页 + 5%纯文本
  • CT:55%文生图 + 10%图生文 + 15%交错视频 + 15%交错网页 + 5%纯文本
  • SFT:50%文生图 + 5%图生文 + 20%交错视频 + 20%交错网页 + 5%纯文本
2.3 GRPO偏好对齐

参数文生图RL编辑RL联合RL
学习率3×10⁻⁵5×10⁻⁵5×10⁻⁵
训练步280100200
GPU84040
批大小644040
Rollout161616
温度0.71.01.0
奖励模型GPT-o3GPT-4.1混合
KL系数0.010.010.01
奖励标准:
  • 文生图:物体出现、属性、空间关系;
  • 编辑:指令遵循、非目标区域保持、整体视觉质量。
---

三、实验结果:三头六臂,各有胜负

3.1 图像理解

BenchmarkARM (7B)对比
POPE87.3Janus-Pro 7B: 87.4; Emu3 8B: 85.2
MMBench80.7LLaVA-OV 7B: 80.8; Qwen2.5-VL 7B: 83.5
MME Perc1463Janus-Pro 7B: 1567; BLIP-3o 8B: 1683
MMMU40.2Janus-Pro 7B: 41.0; Qwen2.5-VL 7B: 58.6
GQA59.8Janus-Pro 7B: 62.0; Show-o2 7B: 63.1
VQAv276.1BLIP-3o 8B: 83.1; VILA-U 7B: 79.4
SEEDBench73.1Janus-Pro 7B: 72.1; BLIP-3o 8B: 77.5
ARM的理解性能与连续统一模型相当或接近明显超过之前离散统一模型(Emu3、Janus)。

MMMU 40.2 vs Qwen2.5-VL 7B的58.6——说明纯自回归在复杂推理上仍有差距,但POPE 87.3和MMBench 80.7证明了离散表示在视觉理解上不是短板。

3.2 图像生成

GenEval(对象对齐):

Model类型Two ObjPositionColorAttriOverall DPG
Janus-Pro-7BAR0.890.790.660.8086.90/89.32/84.19
ARMAR0.910.750.600.7989.85/92.00/84.48
ARM-RLAR0.930.890.900.8690.14/92.08/86.00
Qwen-ImageDiff0.920.760.770.8791.32/94.31/88.32
ARM在GenEval上逼近扩散模型(Qwen-Image 88.32 vs ARM-RL 86.00)。RL对齐后:颜色准确率从0.60→0.90(+50%),位置从0.75→0.89——RL主要改善空间关系和颜色精度

WISE(推理型生成):

ARM-RL overall 0.56,超过FLUX.1[Dev](0.50)、BAGEL(0.52)。物理/化学/空间推理上RL提升明显。

3.3 图像编辑

GEdit-Bench(英文+中文):

ModelG_SCG_PQG_O
Step1X-Edit7.096.766.70
ARM5.737.675.75
ARM-RL6.857.686.68
ARM的PQ(图像质量)评分7.67-7.68超过所有基线——离散表示在编辑保真上反而有优势(可能因为隐空间编辑比像素级inpainting更精确)。SC(语义一致性)和O(整体)在RL后提升到6.85/6.68,接近Step1X-Edit。

---

四、最意外的发现:RL的跨任务协同

论文提到一个"意外"(论文用了"surprisingly")的发现:

> 用GRPO优化生成任务时,编辑任务也提升了;优化编辑时,生成也提升了。而且理解性能完全不受影响。

这是跨任务协同——RL在视觉token空间上的对齐,不是零和博弈。统一表示的好处:对生成有用的语义特征,对编辑也管用;对编辑有用的保真约束,也反馈到生成。

这暗示了统一架构的网络效应:三个任务共享同一套表示空间,一个任务上的优化会溢出到其他任务。

---

五、结论:离散统一路线的"可行性证明"

ARM的核心意义不是SOTA(它很多指标不是第一),而是证明了离散统一路线可以走通

关键设计决策: 1. 冻结SigLIP2做语义锚点,不从头训练视觉编码; 2. 四路监督同时抓语义、像素、语言对齐、特征保真; 3. FLUX.1-based detokenizer桥接离散token和像素空间; 4. GRPO对齐在视觉token上直接做RL,产生跨任务协同。

离散表示的优势:

  • 统一序列建模,一套架构、一套训练流程;
  • 自回归天然支持多模态交错(视频、网页、图文混排);
  • 推理时单模型服务,不需要CLIP+扩散两套pipeline。
劣势也仍在:
  • MMMU 40.2 vs Qwen2.5-VL 58.6——复杂推理仍有差距;
  • 生成质量逼近但略低于顶级扩散模型(Qwen-Image 88.32 vs ARM-RL 86.00);
  • 需要高容量detokenizer(FLUX.1),推理成本不低。
但ARM给出了一条清晰的 roadmap:离散表示 + 强监督分词器 + 自回归统一建模 + RL对齐 = 一个模型同时理解、生成、编辑。这是多模态架构的"大一统"方向。🎯

---

参考与数据来源:

  • Wang, J., Wang, X., Pan, J., et al., "ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations", arXiv:2606.11188, 2026
  • 机构:复旦大学可信具身智能研究院、字节TikTok、字节Seed
  • 项目页:https://github.com/wdrink/ARM
  • 模型:ARM-7B(Qwen2.5-7B base)
  • 分词器:SigLIP2-SO400M-512 + FSQ 65K码本
  • 训练:5T token(2.5T PT + 2.5T CT + 0.2B SFT)
  • 奖励模型:GPT-o3(文生图)、GPT-4.1(编辑)
#ARM #多模态 #自回归模型 #离散表示 #统一视觉 #文生图 #图像编辑 #GRPO #小凯深度研究 #论文解读

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens