【深度解读】打破维度的墙：CubiD如何让AI用同一双眼睛看懂和创造

*——用费曼的方式，讲述一个关于视觉、理解与创造的科学故事*

---

🌌 引言：当AI学会"看"的时候，它在看什么？

想象一下，你正站在一个巨大的艺术博物馆里。四周的墙壁上挂满了各式各样的画作——达芬奇的《蒙娜丽莎》、梵高的《星空》、毕加索的抽象作品。你的眼睛轻轻扫过这些画作，几乎在瞬间就能理解它们的内容：这是一张人脸，那是一片夜空，这幅画充满了忧郁的蓝色调。

这对你来说毫不费力。但你能向一个从未见过画的人解释，你是如何做到的吗？

我们人类的大脑有一种神奇的能力：它能把看到的画面瞬间分解成无数"概念"——形状、颜色、纹理、情感、意义。更神奇的是，我们不仅能理解这些画面，还能在脑海中想象出从未见过的场景：一只戴着帽子的猫在月球上弹吉他。我们可以"创造"。

这正是人工智能科学家们梦寐以求的能力：让机器不仅能像我们一样"看懂"世界，还能像我们一样"想象"世界。

在过去的几年里，AI在视觉理解方面取得了惊人的进步。你只要给它一张图片，它就能告诉你里面有什么、发生了什么、甚至预测接下来会发生什么。但在视觉创造方面，AI一直面临着一个根本性的困境——就像一个人有两套完全不同的"视觉系统"：一套用来理解，一套用来创造，两者互不兼容。

今天，我要讲的故事，是关于一群科学家如何打破这个困境的。他们发明了一种叫做CubiD（Cubic Discrete Diffusion，立方体离散扩散）的方法，让AI第一次能够用同一双"眼睛"——同一套视觉语言——既理解世界，又创造世界。

这就像教会一个人用同一种语言既能读诗，又能写诗。听起来简单，但在AI的世界里，这堵墙已经存在了很多年。

---

🧩 第一章：两个世界的分裂

1.1 语言的启示

让我们先从一个已经解决的问题开始：语言。

你可能听说过ChatGPT、Claude这样的大语言模型。它们是如何工作的呢？简单来说，它们把文字看作是一串"token"——可以把它想象成文字的"乐高积木"。中文里，一个token可能是一个字或一个词；英文里，它可能是一个单词或一个单词的一部分。

> 小插曲：什么是Token？ > > 想象你在玩拼字游戏。你有一堆字母块，每个块上有一个字母。单独的字母本身可能没有意义，但当它们按特定顺序组合起来——c-a-t——就变成了"猫"。在AI的世界里，token就是这些基本的"信息块"。语言模型通过预测下一个token来学习语言的规律。

语言模型的魔法在于：所有的语言任务——翻译、摘要、问答、写作——都被统一成了同一个问题："给定前面的token，下一个token应该是什么？"

这种统一带来了惊人的效果。当一个AI用同一套token既能读懂莎士比亚，又能写出十四行诗时，它学到的语言理解就能够帮助它更好地创造语言，反之亦然。就像一个真正精通语言的人，阅读和写作能力相辅相成。

1.2 视觉的尴尬分裂

但当科学家们试图把这套方法应用到视觉上时，他们遇到了一个难题。

图片不是文字。文字天然就是离散的——一个字接着一个字，有明确的开始和结束。但图片是连续的：颜色从深到浅渐变，边缘从模糊到清晰过渡。你可以无限放大一张图片，发现更多细节。

为了处理这个连续性的问题，早期的视觉AI采用了一种"妥协"：把图片压缩成一组连续的数值，就像用数学公式描述一个曲面。这种方法在图像生成上非常成功——你可能听说过Stable Diffusion、DALL-E这些能根据文字生成图片的AI。它们都使用这种"连续表示"的方法。

但问题来了：当AI需要"理解"图片时——比如识别图中的物体、回答关于图片的问题——连续表示并不好用。就像你不能直接用一道数学公式去回答"图片里有几只猫"这种问题。理解任务需要离散的、语义化的表示。

于是，视觉AI被分裂成了两个阵营：

理解阵营：使用高维、语义丰富的特征（通常是768维或更高），就像用丰富的词汇描述画面
生成阵营：使用低维压缩表示（通常只有8-32维），就像用极简的速记符号描述画面

这两个阵营使用完全不同的"语言"，就像两个说着不同方言的人，无法直接交流。

1.3 为什么要统一？

你可能会问：这种分裂真的有那么大的问题吗？毕竟，理解AI和生成AI似乎都在各自的领域做得很好。

但想象一下这种场景：一个AI看到了一张图片，理解了里面的内容，然后想要画一张类似的图。如果理解和生成使用完全不同的表示，AI就必须在两个"世界"之间反复翻译，每次翻译都会丢失信息、产生误差。

更糟糕的是，当一个孩子（或AI）在学习语言时，它同时通过阅读和写作来学习。阅读帮助它理解语言的结构，写作帮助它内化这些结构。但如果阅读和写作是完全分离的两个系统，这种互相促进的学习就无法发生。

这就是统一的意义所在：让AI用同一套"视觉语言"既能看懂世界，又能创造世界。这样一来，理解能力可以直接帮助生成，生成过程也可以加深理解。

---

🔬 第二章：困住科学家的"维度诅咒"

2.1 离散化的诱惑

既然语言模型使用离散的token取得了如此巨大的成功，为什么不直接用同样的方法来处理图片呢？

事实上，科学家们早就尝试过。一种叫做 向量量化（Vector Quantization, VQ） 的技术被广泛应用。你可以把它想象成一本"视觉字典"：先把图片分成很多小块（比如16×16像素），然后在字典里找到最像这一小块的那个"词条"，用这个词条的编号来表示这一小块。

这种方法确实能把连续的图片转换成离散的token，就像把声音转换成文字一样。早期的视觉生成模型如VQ-VAE、DALL-E就是基于这种思想。

但这里有一个致命的问题：这种"视觉字典"的大小是固定的。假设你有1000个词条，每个小块就只能用0到999之间的一个数字来表示。换句话说，每个小块只能携带log₂(1000) ≈ 10比特的信息。

对于生成任务来说，10比特可能勉强够用——毕竟，你只需要知道"这块大概是红色"、"这块有条纹"就够了。但对于理解任务来说，这远远不够。要真正"理解"一张图片，你需要知道这是"一只橘色的虎斑猫"，而不仅仅是"一块橙色带条纹的区域"。

2.2 维度的困境

为了解决这个问题，科学家们开始探索使用更高维度的表示。

想象你在描述一个人。低维表示就像是说："这个人高1.75米，重70公斤。"这已经能帮你认出这个人了。但高维表示就像是有一份完整的档案：身高、体重、发色、瞳色、肤色、脸型、五官特征、穿着风格、走路姿势……包含的信息量完全不同。

在AI的世界里，维度就是描述一个事物所需要的数字个数。像DINOv2、SigLIP这样的先进视觉编码器，能提取768维甚至1024维的特征向量。每个维度都捕捉了图片的某一方面特征，合在一起就能形成极其丰富的语义描述。

> 生动的比喻：信息的海绵 > > 想象你有一块干海绵（低维表示）和一块充分吸水的海绵（高维表示）。当你挤压它们时，干海绵只能挤出几滴水，而吸水的海绵能涌出大量的水。高维表示就像那块吸水的海绵，蕴含了丰富的语义信息，可以支持各种复杂的下游任务。

但这里出现了一个巨大的技术障碍：如何把高维表示离散化？

如果用传统的向量量化方法，当维度从16增加到768时，可能的组合数量会爆炸式增长。想象一下：如果每个维度有10个可能的取值，16维就有10¹⁶种组合，而768维就有10⁷⁶⁸种组合！这个数字大得难以想象——宇宙中所有的原子数量大约只有10⁸⁰。

这就像是试图编写一本包含所有可能句子的词典。理论上可行，实际上不可能。

2.3 自回归的死胡同

面对这个困境，科学家们尝试过另一种方法：自回归生成（Autoregressive Generation）。

自回归的思路很简单：既然一次生成所有token太难，那就一个一个来。先生成第一个token，然后根据它生成第二个，再生成第三个……就像写文章时一个字一个字地写。

这在语言模型中工作得很好，因为句子的长度通常是几十到几百个token。但在视觉领域，如果使用高维表示，token的数量会大到不可想象。

让我们算一笔账：一张256×256的图片，使用14×14的patch大小，会得到大约16×16=256个空间位置。如果每个位置有768维，那就是256×768=196,608个token！

用自回归方法生成这些token需要196,608个步骤。即使每个步骤只需要1毫秒，生成一张图片也需要3分钟以上。这在实际应用中是不可接受的。

更糟糕的是，自回归强制规定了一个固定的生成顺序——必须先生成左上角的token，然后向右、向下依次生成。但图片真的有这种天然的顺序吗？一幅画的各个部分显然是相互关联、同时存在的，强行规定顺序会破坏这种自然的空间关系。

这就像要求画家必须先画完画面左上角的所有细节，才能开始画右上角。这不仅低效，而且违背创作的自然过程。

---

💡 第三章：CubiD的诞生——立方体中的智慧

3.1 破局的关键洞察

就在这个看似无解的困境中，CubiD的研究团队找到了一个关键的突破口。

他们意识到：问题的核心不在于高维表示本身，而在于我们如何思考和处理这些维度。

传统的离散生成方法把图片看作是一个二维的token网格：每个空间位置有一个token。当维度增加时，他们会把这个token变得更"胖"——包含更多信息。但这就带来了维度灾难。

CubiD团队提出了一个革命性的观点：为什么不把维度也当作一个轴，和图片的高、宽一样来处理？

换句话说，图片的表示不是一个二维网格，而是一个三维立方体（Cubic）：

高（h）：图片的高度方向，有h个位置
宽（w）：图片的宽度方向，有w个位置
深（d）：特征维度，有d个维度

这样一来，196,608不再是一个可怕的数字序列长度，而是一个16×16×768的三维张量。更重要的是，这三个维度是平等的——你可以在任意一个维度上进行操作。

> 费曼式的解释：魔方与拼图 > > 想象你有一个巨大的三维魔方。传统的方法把它压扁成一个平面拼图，然后一片片地拼。但CubiD说：为什么要压扁它？我们可以直接在三维空间里操作！ > > 每一小格可以独立旋转（被掩码和预测），而不需要等待其他格子的结果。你可以先拼好魔方的某个角，再跳到另一个角，而不是必须从左上角开始一片片地拼。

3.2 维度级量化：离散化的艺术

有了这个三维视角，接下来的问题是如何把连续的高维特征离散化。

CubiD采用了一种叫做 维度级量化（Dimension-wise Quantization） 的方法。这与传统的向量量化有本质的不同：

传统方法（向量量化）：

把整个768维向量看作一个整体
在768维空间里定义一组"中心点"（codebook）
每个向量被映射到最近的中心点
问题：当维度很高时，需要指数级增长的codebook才能覆盖整个空间

维度级量化（CubiD）：

把768维向量的每个维度独立看待
每个维度单独量化成若干个离散级别（比如8个级别，用3个比特表示）
768个维度 × 3比特 = 2304比特，可以表示2²³⁰⁴种不同的组合！
优势：每个维度独立处理，复杂度线性增长而非指数增长

这就像描述一个人：传统方法试图用一本"完整的人描述词典"（不可能完成），而维度级量化则是分别描述身高、体重、发色等特征，然后用这些特征的组合来完整描述一个人。

实验表明，这种维度级量化能很好地保留原始高维特征的语义信息。当你对这些离散化的token进行图像分类等理解任务时，性能损失非常小——这意味着离散化没有"丢失"重要的语义信息。

3.3 立方体离散扩散：掩码的艺术

现在来到CubiD最核心的创新：立方体离散扩散（Cubic Discrete Diffusion）。

想象你正在看一张被部分遮挡的图片。你能根据看到的部分，猜测被遮挡的部分是什么吗？比如，你看到一只猫的耳朵和尾巴，即使中间被挡住了，你也能猜出中间应该是猫的身体。

这就是扩散模型的基本直觉：学习从部分信息恢复完整信息。

传统的离散扩散模型（如MaskGIT）是这样工作的：

训练时：随机掩码掉一些空间位置的token，让模型根据未掩码的token预测被掩码的token
生成时：从全部掩码开始，逐步去掩码，直到得到完整图片

但这种方法有一个局限：它只能在空间维度上掩码——要么掩码整个位置的768维，要么不掩码。这在处理低维token时没问题，但面对高维token时就显得过于"粗糙"了。

CubiD的突破在于：它可以在立方体的任意位置进行任意粒度的掩码。

具体来说：

可以掩码某个空间位置的某些维度
可以掩码某些空间位置的所有维度
可以掩码任意组合的维度和位置

这就像玩一个超级灵活的拼图游戏：你可以选择只遮住某个区域的红色通道，或者只遮住所有区域的纹理信息，让模型学会根据各种部分信息来推断完整信息。

> 比喻：侦探的推理游戏 > > 想象你是一个侦探，正在调查一起案件。传统方法给你的是"要么知道这个人的全部信息，要么一无所知"。但现实中，你往往会获得碎片化的信息：知道嫌疑人的身高、不知道体重；知道案发地点、不知道具体时间；知道凶器类型、不知道指纹…… > > CubiD训练的模型就像一个经验丰富的侦探，它学会从各种碎片化的线索中重建完整真相。更重要的是，因为训练时接触过各种各样的碎片化场景，它学会了不同线索之间的关联：身高和体重通常相关，凶器和作案手法相匹配，等等。

3.4 双向注意力的力量

CubiD使用标准的Transformer架构，但有一个关键特点：双向注意力（Bidirectional Attention）。

在自回归模型中，注意力是单向的：当你预测第10个token时，只能看第1到第9个token，不能看后面对。这就像写故事时不能回头看已经写好的内容——显然不合理。

双向注意力意味着：在预测任何一个token时，模型可以看到所有其他token（无论是已经知道的，还是正在被预测的）。这让模型能够捕捉更丰富的依赖关系：

空间内依赖（Intra-position）：同一个空间位置的不同维度之间如何相互约束
例如：如果颜色维度显示"红色"，纹理维度就不太可能是"毛茸茸的蓝天"
空间间依赖（Inter-position）：不同空间位置之间如何相互关联
例如：如果左上角是"猫耳朵"，右下角是"猫尾巴"，那么中间很可能是"猫身体"

通过在高维离散表示上应用双向注意力，CubiD让模型学会了极其丰富的视觉知识。

---

⚙️ 第四章：技术细节揭秘

4.1 训练过程：教AI玩"填空游戏"

CubiD的训练过程可以看作是一个高级版的"填空游戏"。

对于每一张训练图片： 1. 使用预训练的视觉编码器（如DINOv2）提取768维特征，得到一个16×16×768的连续特征立方体 2. 通过维度级量化，把这个连续立方体变成离散立方体 3. 随机选择一个"掩码比例"r（从截断高斯分布中采样） 4. 按照比例r，在立方体中随机掩码一部分元素（可以是任意位置、任意维度） 5. 让Transformer模型根据未被掩码的部分，预测被掩码的部分 6. 计算预测结果与真实值的交叉熵损失，更新模型参数

关键在于第4步的"随机掩码"。因为掩码是完全随机的，模型在训练过程中会见到各种各样的"部分可见"场景：

有时看到上半部分，猜下半部分
有时看到奇数行，猜偶数行
有时只看到颜色信息，猜纹理信息
有时每个位置只看到一半维度，猜另一半

这种多样性让模型学会了极其鲁棒的推理能力。

4.2 生成过程：从混沌到秩序

生成新图片的过程则是一个"去掩码"的迭代过程：

1. 从一个完全掩码的立方体开始（所有位置、所有维度都是[MASK]） 2. 模型预测所有被掩码的值 3. 按照预定的"余弦调度"，选择一部分最有把握的预测结果进行"去掩码" 4. 重复步骤2-3，直到所有token都被去掩码

这里的"余弦调度"是一个巧妙的设计：早期迭代去掩码的比例较小，让模型先建立整体结构；后期迭代去掩码的比例较大，让模型细化细节。

这就像画家创作的过程：先画草图确定构图，再逐步添加细节和色彩。

最重要的是，无论特征维度是256维、768维还是1024维，生成所需的迭代次数T是固定的（通常几百到一千次），远远小于h×w×d（对于768维就是196,608）。这是因为CubiD利用了高维表示中的语义冗余——相邻维度往往携带相关信息，可以并行预测。

4.3 架构设计：聪明的工程选择

CubiD的模型架构做了几个聪明的设计选择：

输入表示：

每个空间位置的d个离散token先被"反量化"回连续值
[MASK] token映射到一个可学习的嵌入值
把这d个值拼接成一个d维向量
最终得到一个h×w的序列，每个元素是d维

这个设计的好处是：Transformer的序列长度只取决于空间分辨率h×w，而不取决于特征维度d。当d从256增加到768时，序列长度保持不变，计算复杂度不会爆炸。

预测头：

Transformer输出h×w个token
每个token通过独立的MLP预测头
每个预测头输出d×L个logits（L是量化级别数）
这样每个空间位置的d个维度可以同时预测

这种"位置级"预测而不是"维度级"预测，大幅降低了计算开销。

---

📊 第五章：实验验证——数字会说话

5.1 基准测试：ImageNet上的突破

CubiD团队在ImageNet-256数据集上进行了全面的实验验证。ImageNet是计算机视觉领域的"高考"，包含了1000个类别的数百万张图片。

定量结果：

CubiD-XXL（37亿参数）在ImageNet-256上取得了 1.88的FID分数
这是离散生成模型中的 最先进水平（State-of-the-Art）
即使没有使用分类器自由引导（CFG），FID也达到2.02，仍然优于大多数基线方法

FID是什么？

FID（Fréchet Inception Distance）是衡量生成图像质量的常用指标。可以把它理解为"生成图片与真实图片的差异度"：

FID = 0：生成图片与真实图片完全一样（理论上最佳）
FID < 5：生成质量非常高，人眼很难区分真假
FID 5-10：质量不错，但仔细看能看出是生成的
FID > 10：明显是生成的，质量较差

CubiD的1.88 FID意味着生成的图片质量非常接近真实图片。

5.2 消融实验：验证核心设计的必要性

为了证明CubiD核心设计的有效性，团队进行了详细的消融实验。

掩码策略的比较：

掩码策略	生成质量	说明
逐维度掩码	❌ 极差	完全无法生成有意义的图像，充满纹理伪影
逐空间位置掩码	⚠️ 较差	能生成图像，但有明显的局部不一致和模糊细节
CubiD：逐元素掩码	✅ 优秀	清晰连贯的图像，细节丰富

这个对比清楚地表明：对于高维token，必须在空间和维度两个轴上都进行细粒度掩码，才能学习到正确的依赖关系。

> 为什么逐维度掩码会失败？ > > 想象你试图描述一个人，但要求你一次只能说一个特征："他很高"，停顿，"他很瘦"，停顿，"他有黑发"……这种信息割裂的方式让你无法建立完整的形象。同理，如果模型一次只能看到一个维度的信息，它无法学会维度之间的关联。

生成步数的影响：

迭代次数	FID分数
64步	较高（质量较差）
256步	明显改善
512步	5.25（已很好）
1024步	接近饱和

有趣的是，即使需要生成196,608个离散token（对于768维配置），CubiD只需要几百到一千次迭代就能达到高质量。这证明了该方法的高效性。

5.3 模型规模的可扩展性

CubiD展现了优秀的模型规模可扩展性：

模型规模	参数量	FID（无CFG）	FID（有CFG）
CubiD-L	9.46亿	2.37	2.29
CubiD-XL	24亿	2.08	2.04
CubiD-XXL	37亿	2.02	1.88

可以看到，随着模型规模增大，生成质量稳定提升。这表明CubiD的立方体离散扩散框架能够有效利用增加的模型容量，具有良好的扩展性。

5.4 统一能力验证：理解与生成的双重检验

这是CubiD最核心的价值主张：同一套离散token既能用于理解，又能用于生成。

团队在ImageNet分类任务上验证了这一点：

表示类型	分类准确率
原始连续特征（DINOv2）	基准（最高）
维度级量化后的离散token	接近基准，下降很小

这说明维度级量化很好地保留了原始特征的语义信息。更重要的是，使用这些离散token进行分类和生成时，用的是同一套表示！

相比之下，现有的其他高维表示生成方法（如VFMTok）需要对原始特征进行重组和压缩，生成的是不同于原始表示的新token，无法直接用于理解任务。

5.5 跨编码器泛化能力

CubiD不仅适用于DINOv2，也能与其他视觉编码器配合使用：

DINOv2（自监督学习）：768维，FID=1.88
SigLIP2（语言-图像对比学习）：也可成功应用

这表明CubiD的框架是通用的，不依赖于特定的特征提取器。

---

🔮 第六章：意义与展望——通往统一多模态AI的桥梁

6.1 为什么是"立方的"？

回顾CubiD这个名字—— Cubic Discrete Diffusion（立方体离散扩散）。这个名字精准地概括了方法的核心：把高维视觉表示看作一个三维立方体，而不是二维平面。

这个视角的转变看似简单，却带来了质的飞跃：

1. 打破了维度的诅咒：通过维度级量化，高维离散表示成为可能 2. 实现了细粒度控制：任意维度、任意位置都可以独立操作 3. 保持了语义丰富性：高维特征的信息没有被压缩或扭曲 4. 统一了理解与生成：同一套表示支持两种任务

这就像在几何学中，从二维平面进入三维空间， suddenly 一切都变得不同了。

6.2 通往真正多模态AI的道路

CubiD的意义远不止于图像生成。它指明了通往统一多模态架构的道路。

想象一下未来的AI系统：

它用同一套token表示来处理文字和图片
它可以用相同的训练目标（预测下一个token）来学习语言和视觉
它在理解图片时学到的知识可以直接用于生成图片，反之亦然
它可以无缝地在文本和图像之间转换、融合、创造

这正是CubiD所开启的可能性。当视觉和语言使用相同的离散token范式时，真正的多模态统一变得可能。

6.3 对AI研究范式的启示

CubiD的成功还带来了更深层的启示：

关于表示学习：高维表示并不必然意味着高复杂度。关键在于如何组织和利用这些维度。CubiD展示了通过巧妙的结构设计（立方体视角+细粒度掩码），可以有效驯服高维空间。

关于生成模型：扩散模型不仅在连续空间有效，在离散空间同样可以强大。CubiD证明了离散扩散在处理复杂高维数据时的潜力。

关于任务统一：理解和生成不一定要用不同的表示。当表示足够丰富时，它可以同时服务于多种任务。这提示我们重新思考AI系统的架构设计。

6.4 局限与未来方向

当然，CubiD也不是完美的。作者坦诚地指出了几个局限：

依赖编码器质量： CubiD基于预训练的视觉编码器（如DINOv2）提取特征。如果编码器的重建质量有限（实验中PSNR约18dB），生成图像的细节也会受限。未来更好的表示编码器将进一步提升生成质量。

与连续生成模型的差距：虽然CubiD在离散方法中达到了SOTA，但与最先进的连续扩散模型（如RAE）相比仍有差距。这反映了离散生成模型整体的发展空间。

推理效率： CubiD需要数百到一千次迭代才能生成高质量图像，比连续扩散模型慢。如何加速离散扩散的推理，是未来的重要研究方向。

未来可能的研究方向： 1. 视频生成：将CubiD扩展到时间维度，处理视频数据 2. 3D生成：应用于点云、体素等3D表示 3. 多模态融合：与语言模型的token统一，实现真正的多模态架构 4. 更快采样：研究蒸馏、一致性模型等技术加速生成 5. 条件生成：更精细的控制，如根据草图、部分图像生成完整图像

---

🌟 结语：科学的优雅

费曼曾经说过："如果你不能向一个六岁的孩子解释清楚，你自己就没有真正理解。"

当我试图用费曼的风格来讲述CubiD时，我深深感受到了这一点。这个方法的核心——把高维表示看作三维立方体，在任意维度上进行细粒度掩码——是如此的优雅和直观，一旦理解了就很难忘记。

但实现这个想法所需要的洞察力、工程能力和坚持不懈，又是如此令人敬佩。

CubiD不是终点，而是一个重要的里程碑。它证明了： 统一的理解与生成是可能的 。在这个基础上，我们可以期待更多突破：真正统一的多模态模型、更强大的世界模型、更自然的交互方式……

也许在不久的将来，我们会看到AI用同一双"眼睛"阅读小说、理解画作、想象场景、创作艺术。而这双眼睛的语言——那些离散的token——将是我们人类也能理解的。

正如这篇文章的标题所说：CubiD打破了维度的墙 。而墙的另一边，是AI更加统一、更加强大、也更加接近人类智能的未来。

---

📚 延伸阅读与参考资料

论文原文：

Wang, Y., Ma, C., Lin, Z., et al. (2026). *Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens*. arXiv:2603.19232.

相关技术：

DINOv2: 自监督视觉表示学习的里程碑
MaskGIT: 离散扩散生成的先驱工作
Vector Quantization: 离散化的经典方法

开源资源：

CubiD官方代码：https://github.com/YuqingWang1029/CubiD

---

*本文对CubiD论文进行了科普性解读。如需了解技术细节，请参阅原始论文。*

#AI论文解读 #CubiD #视觉生成 #离散扩散模型 #多模态AI #科普