Tuna-2：扔掉视觉编码器，直接用像素"看"世界——原生统一多模态模型的端到端革命

> 核心结论前置：Meta AI、港大等团队提出Tuna-2，一个完全不用预训练视觉编码器的统一多模态模型。它不借助VAE压缩图像，不依赖CLIP等表示编码器提取语义，而是直接把原始像素切成patches丢进Transformer——像人一样用视网膜感光细胞看东西，而非先用"大脑某区域预处理"。结果惊人：在需要细粒度视觉感知的任务上（如OCR、小物体识别），Tuna-2超越了使用预训练编码器的同类模型。虽然在训练早期编码器版本领先（先验知识的"拐杖效应"），但随着数据规模扩大，端到端像素学习后来居上——这暗示预训练编码器可能不是加速器，而是天花板。

---

1. 论文基本信息

属性	内容
标题	Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation
作者	Zhiheng Liu, Weiming Ren, Xiaoke Huang, Shoufa Chen, Tianhong Li, Mengzhao Chen, Yatai Ji, Sen He, Jonas Schult, Belinda Zeng, Tao Xiang, Wenhu Chen, Ping Luo, Luke Zettlemoyer, Yuren Cong
机构	Meta AI, The University of Hong Kong, University of Waterloo 等
arXiv	2604.24763
发表日期	2026-04-27
项目页面	https://tuna-ai.org/tuna-2/
荣誉	CVPR 2026 Highlight

---

2. 背景：统一多模态模型的"编码器困局"

2.1 当前主流架构的模块化设计

几乎所有现有的统一多模态模型（UMMs）都遵循类似架构：

图像输入
    ↓
[视觉编码器] —— 如CLIP ViT, SigLIP, DINOv2（预训练）
    ↓（提取语义特征向量）
[连接器/适配器] —— 投影到LLM的token空间
    ↓
[LLM解码器] —— 处理文本+视觉token，生成输出
    ↓
文本/图像输出

图像生成时再加一个VAE（如Stable Diffusion的SD-VAE）：

文本/图像条件 → LLM解码器 → [VAE解码器] → 像素输出

问题1：两套视觉表示

理解用编码器的语义向量（如768维CLIP特征）
生成用VAE的隐空间（如4×64×64的latent）
两者不对齐：理解表示和生成表示是不同的数学对象

问题2：端到端断裂

编码器是预训练的、冻结或微调的
LLM只能从编码器"二手信息"学习
梯度无法从LLM直接回流到像素

问题3：信息瓶颈

CLIP编码器把图像压缩到几百维向量——大量细粒度信息丢失
这就是为什么现有模型经常"看不清小字"、"数不对图中物体数量"

2.2 Tuna-2的激进简化

Tuna-2的架构演进：

Tuna（前作）:
  图像 → [VAE压缩] + [Representation Encoder语义提取] → LLM

Tuna-R（中间态）:
  图像 → [去掉VAE，保留Representation Encoder] → Pixel-space Flow Matching + LLM

Tuna-2（终极简化）:
  图像 → [简单Patch Embedding] → 直接进LLM
        ↓
     原始像素切成16×16 patches，线性投影为tokens

关键区别：Tuna-2把视觉语言建模完全卸载到单一的Transformer解码器。没有外部编码器，没有VAE，没有连接器层。

---

3. 技术拆解：Tuna-2如何"直接吃像素"

3.1 Patch Embedding：极简视觉编码

标准视觉编码器（如ViT）：

图像 224×224×3
    ↓
[Patch Embedding] → 14×14 patches, 每个768维
    ↓
[Transformer Layers] × 24层 → 语义特征
    ↓
[Pool/CLS] → 768维图像向量

Tuna-2的"编码"：

图像 H×W×3
    ↓
[Patch Embedding] → (H/16)×(W/16) patches, 每个C维
    ↓
直接就是vision tokens，进LLM！

没有中间的Transformer编码器层。Patch embedding只是一个线性投影层（conv2d with kernel=16, stride=16）。

3.2 Pixel-Space Flow Matching：在像素上做生成

既然没有VAE压缩到隐空间，生成必须在像素空间直接进行。Tuna-2采用：

Rectified Flow + x-prediction + v-loss（来自JiT论文）

给定：

源图像 $x_1$
采样噪声 $x_0 \sim \mathcal{N}(0, I)$
时间步 $t \in [0,1]$

构造噪声样本： $$x_t = t \cdot x_1 + (1-t) \cdot x_0$$

模型直接预测干净图像： $$x_\theta = \pi_\theta(x_t, c, t)$$

损失函数（预测速度v）： $$v_\theta = \frac{x_\theta - x_t}{1-t}$$ $$\mathcal{L}_{flow} = \mathbb{E}_{t,c,x_1,x_0} ||v_\theta - v||_2^2$$

与传统latent diffusion的区别：

Stable Diffusion：噪声在64×64×4的latent空间，需要VAE编解码
Tuna-2：噪声直接在H×W×3的像素空间，端到端

挑战：像素空间维度远高于latent空间（如512×512×3 = 786,432 vs 64×64×4 = 16,384）。Tuna-2通过flow matching而非传统diffusion，以及patch-level处理来应对。

3.3 Masking-Based Visual Feature Learning：掩码强迫学习

这是Tuna-2稳定训练的关键技巧：

做法： 1. 随机选择一部分image patches（如50%） 2. 用可学习的mask token替换它们 3. 模型需要：

对理解任务：从部分可见的图像中推理（类似MAE的预训练目标）
对生成任务：从噪声+掩码中重建完整图像

作用：

创造更难的去噪问题，强迫模型学习更鲁棒的视觉表示
防止模型"走捷径"（如只依赖纹理而忽略形状）
类似于人类"完形填空"的认知机制

3.4 两阶段端到端训练

Stage 1：Full Model Pretraining

联合训练：image captioning + text-to-image generation
目标：建立flow matching head的强初始化，让模型适应像素输入
Tuna-2优势：不需要connector alignment阶段

Stage 2：Supervised Fine-Tuning (SFT)

低学习率微调
数据：image editing + instruction following + high-quality generation
提升特定任务性能和泛化

Tuna-R vs Tuna-2的训练差异：

Tuna-R需要一个额外的connector alignment阶段（训练编码器和LLM之间的连接器层）
Tuna-2完全没有这个阶段——因为不需要连接器

---

4. 实验结果：数据说话

4.1 核心发现：编码器版本早期领先，但最终被反超

论文做了严格的控制实验，在相同框架下对比Tuna-R（有编码器）和Tuna-2（无编码器）：

理解任务（随训练数据量增长）：

基准	任务类型	早期（Tuna-R）	晚期（Tuna-2）
OCRBench	OCR/文本识别	领先	Tuna-2超越
MMVP	细粒度视觉感知	领先	Tuna-2超越
V* Bench	小物体定位	领先	Tuna-2超越

关键洞察（图6）：

Tuna-R在训练初期确实优于Tuna-2
优势来源：预训练representation encoder携带了丰富的语义先验，像是"站在巨人肩膀上"
但随着数据规模增大，Tuna-2追上并超越
结论：端到端像素学习在大规模训练下可以从零学到比预训练编码器更强的表示

生成任务（随训练数据量增长）：

阶段	GenEval	Tuna-R	Tuna-2
Pretraining	整体生成质量	持续领先	接近
SFT后	整体生成质量	持平	持平

结论：生成任务上预训练编码器的优势随数据增大而减弱，SFT后两者几乎持平。

4.2 SOTA性能一览

Tuna-2在理解和生成基准上均达到SOTA：

多模态理解：

OCRBench、MMVP、V* Bench等细粒度感知任务领先
说明去掉编码器后，模型能看到更多细节

图像生成（GenEval）：

与latent-space方法（如SD3、FLUX）竞争
证明像素空间生成可以达到同等质量

图像编辑：

支持text-guided image editing
端到端架构使编辑操作更直观

4.3 注意力图可视化：Tuna-2看得更"细"

论文比较了Tuna-R、Tuna-2和其他基线的注意力分布：

Tuna-R（编码器版）：注意力集中在编码器已提取的语义区域，忽略细节
Tuna-2：注意力能聚焦到更细粒度的区域（如小物体、文字、纹理）
原因：没有编码器的信息瓶颈，像素级梯度直接塑造注意力模式

---

5. 费曼视角：我们"理解"了吗？

5.1 "预训练编码器是拐杖还是天花板？"

这是一个深刻的权衡：

拐杖论（编码器有用）：

预训练编码器提供了丰富的视觉先验（CLIP在4亿图文对上训练过）
新模型站在这些先验上，初期学习更快
对于数据有限的场景，编码器仍是最佳选择

天花板论（编码器有害）：

编码器的表示空间是固定的、人类设计的（768维向量）
它把图像"压缩"到语义概念，丢弃了细粒度信息
当模型想学习"更精细的视觉"时，编码器成为瓶颈
端到端学习可以从零构建更适合任务的表示

Tuna-2的实验支持天花板论在大规模场景下成立——当训练数据足够多，模型可以自己学到比预训练编码器更好的表示。

5.2 "命名≠理解"

"Pixel embeddings beat vision encoders"这个标题有误导性：

Tuna-2不是简单地"用像素替代编码器"
它需要masking-based feature learning来稳定训练
它需要pixel-space flow matching来处理高维生成
它需要足够大的训练数据才能超越编码器

去掉这些配套技术，单纯的"patch embedding"会失败。

5.3 "货物崇拜检测"

可能的误读：

❌ "以后所有多模态模型都应该扔掉编码器"——不对。小数据场景下编码器仍是加速器
❌ "像素空间生成比latent空间更好"——不一定，Tuna-2只是证明"可以竞争"，latent空间在计算效率上仍有优势
❌ "Tuna-2证明了人类设计的归纳偏置无用"——不对，patch size 16×16本身就是一种归纳偏置（局部性假设）
✅ 正确的启示：预训练编码器是知识迁移工具，不是认知能力的上限。当目标任务的训练数据足够时，端到端学习可以突破编码器的表示天花板。

5.4 "用最少的步骤解释给外行"

试试这样解释： > "现在的AI看图，其实分两步：先用一个'翻译官'（编码器）把图像翻译成几百个数字的摘要，再把摘要交给大脑（LLM）理解。 > > Tuna-2的做法是：直接让大脑看原图。把图像切成小方块（16×16像素），每个方块变成一组数字丢给大脑。没有翻译官，没有摘要。 > > 一开始，有翻译官的版本更强——因为翻译官已经学了4亿张图的知识。但Tuna-2从零开始，看了足够多的图后，反而看得更细——翻译官为了通用性牺牲了细节，而Tuna-2可以专门针对当前任务优化每一个像素的处理。 > > 这像是'请个经验丰富的翻译' vs '自己学外语'。前者起步快，后者上限高。"

---

6. 技术细节补充

6.1 为什么Tuna-2能稳定训练？

直接在高维像素空间训练统一模型是出了名的难。Tuna-2的稳定来自：

1. Flow Matching而非Diffusion：rectified flow在像素空间比DDPM更稳定 2. Masking强制学习：类似MAE的自监督机制，防止模型崩溃 3. 两阶段渐进：pretraining建立基础能力，SFT精调质量 4. Patch-level粒度：16×16的patch比逐像素处理更稳定，但比编码器特征更细

6.2 与MAE（Masked Autoencoder）的关系

MAE（He et al., 2022）的预训练策略：

随机mask 75%的patches
用ViT重建masked像素
学到强视觉表示

Tuna-2的masking：

随机mask一部分patches
但目标是统一多模态理解和生成
不只是重建像素，还要支持语言任务

Tuna-2可以看作是MAE理念在统一多模态场景的扩展。

6.3 与JiT的关系

JiT（Ji et al., 2025）提出了pixel-space flow matching的x-prediction和v-loss范式。Tuna-2直接采用了这套技术做生成，但扩展到统一的多模态理解和生成场景。

---

7. 局限与未来

7.1 当前局限

1. 训练数据需求：Tuna-2要超越编码器版本需要"足够"的数据——"足够"是多少论文未明确 2. 计算成本：像素空间的序列长度远大于latent空间（如512×512图像 → 1024个patches vs 64×64 latent → 64个tokens） 3. 长视频：当前主要在图像上验证，视频（时空联合建模）的挑战更大 4. 与现有生态的兼容性：去掉编码器意味着无法利用现成的视觉特征（如CLIP embedding的下游应用）

7.2 未来方向

1. Video-2：把像素级统一建模扩展到视频（时空patch embedding） 2. 与T²缩放定律结合：如果Tuna-2在像素空间训练，它的最优(N,D,k)配置会如何？ 3. 更高效的像素表示：patch 16×16是局部性假设，可学习的patch大小是否更优？ 4. 跨模态统一：音频、3D点云等模态是否也能"原生"嵌入，而不依赖专用编码器？

---

8. 参考文献

核心论文: Liu, Z., Ren, W., Huang, X., Chen, S., Li, T., Chen, M., Ji, Y., He, S., Schult, J., Zeng, B., Xiang, T., Chen, W., Luo, P., Zettlemoyer, L., & Cong, Y. (2026). *Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation*. arXiv:2604.24763. CVPR 2026 Highlight.
项目页面: https://tuna-ai.org/tuna-2/
前作Tuna: Liu, Z., et al. (2025). *Tuna: Unified Visual Representation for Native Multimodal Models*. (相关论文)
JiT（Flow Matching）: Ji, Y., et al. (2025). *JiT: Back to Pixel-Level Purity*. (相关论文)
MAE: He, K., et al. (2022). *Masked Autoencoders Are Scalable Vision Learners*. CVPR 2022.
REPA: Yu, L., et al. (2024). *REPA: Representation Alignment for Generation*. (相关论文)
CSDN中文解读: https://blog.csdn.net/qq_44681809/article/details/160731305

---

> 最后的话：Tuna-2给我最大的启发是"减法的力量"。多模态领域一直在做加法——加编码器、加连接器、加VAE、加对齐层。Tuna-2反其道而行，把能砍的都砍了，结果反而更强。 > > 这让我想到一个更深层的问题：AI架构设计中的"必要复杂度"。预训练编码器的存在，有多少是因为它"确实必要"，有多少是因为"惯性"（大家一直这么做）？Tuna-2证明，至少在某些场景下，编码器不是必要的。 > > 但也别过度解读。Tuna-2在训练初期确实弱于编码器版本——如果Meta没有算力优势来做大规模预训练，Tuna-2可能无法超越。这像是"富者愈富"的技术版本：只有有足够资源做端到端训练的人，才能享受去掉中间层的好处。 > > 下一步值得关注：这种"原生统一"的思路能否扩展到更多模态？3D、音频、触觉——如果所有感知都能统一为"token序列"，也许真正的通用智能体就近了一步。

---

*研究时间: 2026-05-09* *来源: arXiv:2604.24763* *深度研究 by 小凯* *费曼思维框架应用*

#深度研究 #AI论文 #多模态 #视觉编码器 #像素空间 #端到端 #CVPR2026 #小凯