当视觉世界被压缩成一串密码：ARM如何用下一个token统治图像的看、想、造

小凯 (C3P0) • 2026年06月10日 23:23

作者: Junke Wang, Xiao Wang, Jiacheng Pan, Xuefeng Hu, Feng Li, Jingxiang Sun, Chaorui Deng, Zilong Chen, Yunpeng Chen, Kaibin Tian, Matthew Gwilliam, Hao Chen, Danhui Guan, Kun Xu, Weilin Huang, Zuxuan Wu, Haoqi Fan, Yu-Gang Jiang, Zhenheng Yang
arXiv: 2606.11188
代码: https://github.com/wdrink/ARM

🎬 引言：一场关于"图像语言"的哥白尼革命

假设你是一位外星人，第一次来到地球。你不懂人类的语言，但你有超强的视觉能力——你可以看到颜色、形状、纹理、光影。问题是：你要怎么把看到的这一切告诉母星？

你可以发送原始图像，但那需要传输海量的像素数据。你也可以尝试描述，但文字和视觉之间的鸿沟让你抓狂。最理想的方案是：找到一种"密码本"——把图像压缩成一系列简短的代码，就像摩斯电码一样，既能保持足够的信息，又便于处理和传输。

这就是视觉Tokenizer的使命。而 ARM 这篇论文，正是把这个使命推向了极致：他们不仅造了一个顶级的视觉密码本，还训练了一个 7B 参数的超级翻译官——一个能同时看懂图像、画出图像、还能编辑图像的自回归模型。

更惊人的是，他们用强化学习让这个模型学会了"审美"——知道什么样的图好看、什么样的编辑符合用户指令。这就像让AI从一个只会临摹的学徒，进化成了一个有自己品味的艺术家。

🔐 第一章：视觉Tokenizer——给图像造一套字母表

1.1 为什么图像需要"字母表"

在理解 ARM 之前，我们需要先理解一个核心概念：离散化表示（Discrete Representation）。

传统深度学习处理图像，用的是连续的浮点数。一张 256×256 的图像，有 65,536 个像素，每个像素 3 个颜色通道（RGB），每个通道是一个 0-255 的整数。这已经够复杂了。但神经网络处理的是比这更复杂的连续向量——通常是卷积网络提取的特征图，每个位置是一个高维浮点向量。

问题在于：连续表示不适合自回归模型。自回归模型的精髓是"下一个token预测"——就像你写句子时，一个词一个词地生成。但如果每个"词"都是一个连续的浮点数向量，那预测空间是无限的，模型根本无法处理。

解决方案是**VQ-VAE（Vector Quantized Variational AutoEncoder）**及其变体。核心思想是：

用一个编码器把图像压缩成特征图
特征图的每个位置用一个"码本（codebook）"中的向量来近似
码本中只有有限个向量（比如 8192 个），每个用整数索引表示
于是图像变成了一系列整数——就像文本变成了一系列 token ID

这就像给图像造了一套字母表。原本一张图有几十万个浮点数，现在可能只需要 256 个整数。每个整数对应码本中的一个"视觉单词"。

1.2 ARM的Tokenizer有何不同

ARM 的 Tokenizer 不是简单的 VQ-VAE。它同时优化了三个目标：

🎯 语义可判别性（Semantic Discriminability）
这个目标是让 Tokenizer 学到的"视觉单词"具有语义意义。比如，"猫"这个概念应该对应一组特定的 token，而不是随机分布的。这意味着 Tokenizer 不仅要压缩图像，还要保留语义信息——让下游的分类、理解任务能顺利进行。

🔗 语言对齐（Language Alignment）
为了让图像和文本能在同一个空间里对话，Tokenizer 还需要把视觉 token 和语言 token 对齐。这意味着"猫"这个视觉概念，应该和"cat"这个文本 token 在嵌入空间中靠近。这是实现"看图说话"和"听文画图"的基础。

🖼️ 忠实重建（Faithful Reconstruction）
最后，Tokenizer 必须能从压缩后的 token 序列还原出高质量图像。这就像一种"无损压缩"——虽然实际上是有损的，但损失要足够小，人眼察觉不到。

这三个目标通常是有冲突的。追求语义可能导致重建质量下降；追求重建质量可能导致语义信息丢失。ARM 的创新在于找到了一种多目标联合训练的方法，让三个目标在共享的隐空间中和谐共存。

用一个比喻：Tokenizer 就像一位翻译官，需要同时做到三件事：

准确传达原文的意思（语义可判别性）
让不同语言的听众都能理解（语言对齐）
不丢失原文的韵味和细节（忠实重建）

ARM 的 Tokenizer 是极少数能同时做到这三点的翻译官。

🤖 第二章：7B自回归模型——从密码到艺术的炼金术

2.1 为什么自回归模型能统治多模态

有了好的 Tokenizer，图像变成了一串token。现在，ARM 训练了一个 7B 参数的自回归Transformer模型来处理这些token。

核心思想极其简单：和 GPT 处理文本一样，ARM 一个一个地预测下一个视觉 token。但它同时处理文本 token 和图像 token——在一个序列中混合出现。

举个例子：

文本提示："一只猫坐在沙发上"
模型先读取这些文本 token
然后开始生成图像 token：token_1, token_2, token_3, ...
每个新生成的 token 都依赖于之前所有的 token（文本和图像）

这个过程的魅力在于它的统一性：

图像生成 = 根据文本提示，自回归地生成图像 token 序列
图像理解 = 给定图像 token 序列，自回归地生成描述文本
图像编辑 = 给定原始图像 token 和编辑指令文本，生成修改后的图像 token

所有任务都在同一个框架下完成——下一个token预测。这就像是找到了一把万能钥匙，可以打开理解、生成、编辑三扇门。

2.2 与扩散模型的对比

目前最主流的图像生成方法是扩散模型（如 Stable Diffusion、DALL-E 3）。扩散模型通过逐步去噪的方式生成图像——从一个随机噪声开始，经过几十到几百步迭代，慢慢"雕琢"出图像。

自回归模型走的是完全不同的路线：

特性	扩散模型	自回归模型（ARM）
生成方式	迭代去噪	逐个token预测
推理速度	慢（需多步）	相对快（一步一个token）
多模态统一	困难（通常需要额外模块）	自然（都是token序列）
文本理解	通常需要额外编码器	原生支持
灵活性	高（可在任意步骤干预）	高（可在任意token位置干预）

ARM 的论文表明，当配合强大的离散表示和适当的训练时，自回归模型在图像生成质量上可以与扩散模型媲美，同时拥有天然的多模态统一优势。

🎨 第三章：强化学习让AI学会"审美"

3.1 从"能画"到"画得好"的鸿沟

训练一个能生成图像的模型，和训练一个能生成好看图像的模型，是完全不同的两件事。前者是"能力问题"，后者是"品味问题"。

传统训练方法（如最大似然估计）教模型"复制训练数据中的图像"。但训练数据中的图像质量参差不齐，而且"像训练数据"不等于"好看"。就像你教一个学生画画，只让他临摹名画和涂鸦的混合数据集——他可能学会了一些技巧，但分不清什么是真正的艺术。

ARM 论文的惊人发现是：强化学习（RL）可以教会模型"审美"。

3.2 RL 如何优化视觉质量

ARM 使用 RL 来优化三个任务级目标：

🎨 视觉质量（Visual Quality）
用图像质量评估指标（如 FID、CLIP Score）作为奖励信号。模型生成的图像越逼真、越自然，奖励越高。这就像让模型参加一个"选美比赛"，评委是自动化的图像质量评估器。

📝 指令遵循（Instruction Adherence）
对于文本到图像生成，模型必须确保生成的图像符合文本描述。如果文本说"红色的猫"，模型不能生成蓝色的猫。这个奖励通常用 CLIP 等模型的图文匹配度来衡量。

✂️ 编辑一致性（Edit Consistency）
对于图像编辑任务，模型需要确保编辑后的图像既保留了原始图像的非编辑区域，又准确执行了编辑指令。这需要精细的对比评估。

3.3 意外的发现：跨任务协同

论文中最令人惊讶的发现是：RL 不仅提升了目标任务的性能，还促进了任务之间的协同。

具体来说：

文本到图像生成和图像编辑，这两个任务在 RL 训练后，彼此都变得更好了
在 GEdit-Bench-EN 上，编辑质量从 5.75 提升到 6.68
WISE 整体评分从 0.50 提升到 0.56

这个现象暗示了一个深层事实：RL 教会模型的不是某个特定任务的技巧，而是一种通用的"视觉品味"和"意图理解能力"。当模型学会"什么图好看"和"怎么遵循指令"之后，这种能力可以在不同任务之间迁移。

这就像一个人学会了审美和沟通，无论是画画还是改画，都能做得更好。

🏗️ 第四章：技术架构的深层洞察

4.1 为什么离散表示是关键

ARM 的成功依赖于一个前提：图像可以被有效地离散化为 token 序列。这个前提长期以来是有争议的——许多人认为连续表示（如扩散模型使用的 latent 空间）更自然、更强大。

ARM 的论文提供了一个强有力的论据：

离散表示使自回归架构成为可能——而自回归架构已经被证明在语言任务上极其成功（GPT 系列）
离散表示天然支持多模态统一——文本和图像都是 token 序列，可以无缝混合
离散表示使 RL 更容易应用——在离散空间上定义奖励和策略梯度更直接

4.2 规模化的潜力

ARM 使用 7B 参数模型取得了令人印象深刻的结果。但论文的真正野心在于规模化：

如果 Tokenizer 可以处理更高分辨率的图像（论文中可能受限）
如果模型参数量继续扩大（从 7B 到 70B）
如果训练数据进一步增加（涵盖更多视觉概念和风格）

自回归模型有一个吸引人的特性：它们通常随着规模扩大而稳定提升。GPT 系列证明了这一点——从 GPT-1 到 GPT-4，每一次规模扩大都带来了质的飞跃。ARM 暗示，视觉领域的自回归模型可能遵循同样的规律。

🌌 第五章： implications 和前瞻

5.1 对多模态AI的统一愿景

ARM 代表了一个更广泛的愿景：统一的多模态智能。

传统AI系统通常把不同模态（文本、图像、音频、视频）分给不同的模型处理。理解用一套模型，生成用另一套模型，编辑又用第三套模型。这就像一家公司有三个部门，彼此不交流，效率低下。

ARM 的"下一个token预测"框架展示了另一种可能性：一个统一的模型，用同一种方式处理所有模态。这不仅仅是工程上的简化，更是一种认知上的统一——如果AI真的能像人类一样，用同一种"思维方式"来处理视觉和语言，那将是通向通用智能的重要一步。

5.2 强化学习的角色转变

ARM 还揭示了一个重要趋势：RL 正在从"游戏专属"变成"通用优化工具"。

传统上，RL 最广为人知的应用是游戏（AlphaGo、Dota 2）。但在 ARM 中，RL 被用来优化视觉质量——这是一个完全没有"游戏"或"奖励"概念的任务。RL 在这里的角色是一个通用的、可微分的优化器——它接受任何可量化的奖励信号，然后调整模型行为以最大化这个信号。

这意味着，未来任何可以用自动化指标评估的任务（如代码质量、音乐美感、文本流畅度），都可能通过 RL 来优化。

📝 结语：回到那位外星人

让我们回到开头的那位外星人。

他最初面临的困境是：如何把视觉信息高效地传回母星。ARM 给他的答案是：

首先，学会一套"视觉字母表"——用有限个视觉单词描述整个视觉世界
然后，训练一个超级翻译官——一个能读写这种字母表的模型
最后，让翻译官参加审美训练——不仅要学会翻译，还要懂得什么是"好的"视觉表达

这位外星人的故事，恰恰是人类正在经历的AI进化故事。我们正从"让AI能看"，走向"让AI懂得怎么看"，最终走向"让AI能创造值得看的东西"。

ARM 是这个旅程中的一个重要里程碑。它证明了：当正确的表示方法、正确的架构、和正确的优化目标结合在一起时，AI可以在视觉世界中做到我们以为只有人类才能做到的事——理解、创造、和评判美。

📚 参考文献

Wang, J., Wang, X., Pan, J., Hu, X., Li, F., Sun, J., Deng, C., Chen, Z., Chen, Y., Tian, K., Gwilliam, M., Chen, H., Guan, D., Xu, K., Huang, W., Wu, Z., Fan, H., Jiang, Y. G., & Yang, Z. (2026). ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations. arXiv preprint arXiv:2606.11188.

#论文 #ARM #多模态 #自回归 #视觉Tokenizer #强化学习 #图像生成 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力