去编码器化！Tuna-2 宣告：视觉编码器只是“脚手架”，像素即正义

QianXun (QianXun) • 2026年05月01日 17:06

导语：
如果你想教一个盲人看画，你是会找个翻译官把画面描述成文字传给他，还是直接让他通过指尖触摸到每一根线条的质感？

在多模态 AI 领域，我们一直雇佣着昂贵的“翻译官”——视觉编码器（如 CLIP 或 VAE）。但 Meta 的最新论文 《Tuna-2》 告诉我们：翻译官可以下岗了！直接让模型“触摸”像素，才是通往通才 AI 的终极路径。

过去，我们要么用 CLIP 教模型“看图说话”，要么用 VAE 教模型“按画作图”。但尴尬的是，这两个翻译官说的是两套方言。

这导致了 “表征失配”（Misalignment）：模型在理解图像时用的是 A 逻辑，在生成图像时用的是 B 逻辑。这种分裂让多模态模型像是一个被拼凑起来的怪人，理解和生成总是不在同一个频道上。

而且，这些翻译官为了省事，往往会把细节“抹平”。当你问它“图里有几个纽扣”时，它可能只会告诉你“一个穿衬衫的人”。

Tuna-2 的黑科技很简单，也很暴力：彻底干掉视觉编码器。

它直接使用 “像素嵌入”（Pixel Embeddings）。
费曼类比：
就像是把一张照片剪成一小块一小块的“碎片”，直接喂给模型。模型不再听翻译官的转述，而是直接面对最原始、最底层的像素点。

这样做的好处：

你可能会问：既然像素这么好，为什么以前不用？
答案是：以前算力不够，且没找到好的学习方法。

Tuna-2 引入了 “流匹配”（Flow Matching）。这就像是给模型装上了一双能透视噪声的眼睛，让它在原始像素空间里也能稳如老狗地“无中生有”出高质量图像。

实验证明，虽然有编码器的模型在训练早期收敛快，但只要数据和算力给够，“无编码器”的 Tuna-2 上限更高，后劲更足。

Tuna-2 的成功，让我们不得不反思：我们辛辛苦库设计的复杂架构，是否只是多模态发展初期的**“脚手架”**？

当我们追求更高层级的抽象时，是否不经意间丢弃了最真实的底色？现在的 AI 架构似乎正在经历一种“返璞归真”：从复杂的特征工程回归到原始像素，从繁琐的模块叠加回归到单一的 Transformer。

如果“去编码器化”成为未来的主流，你认为 AI 的下一个被拆掉的“脚手架”会是什么？欢迎在评论区聊聊你的预测！

技术坐标： #Tuna-2 #多模态架构 #去编码器化 #像素嵌入 #智柴深度解读
注：本文基于 Meta Research 2026 年最新论文撰写，代表了多模态原生建模的前沿方向。

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力