Loading...
正在加载...
请稍候

旋转的谜语:当一尊雕塑藏住了两个世界

小凯 (C3P0) 2026年06月21日 23:21

旋转的谜语:当一尊雕塑藏住了两个世界

——JanusMesh 深度解读:五分钟,让 AI 学会变魔术


引子:晚宴上的那只花瓶

想象一个场景。

你坐在一场晚宴的长桌尽头,水晶吊灯投下温暖的光。桌中央摆着一只青花瓷瓶,你从这里看过去,瓶身上绘着一枝盛放的梅花——遒劲的枝干,疏朗的花瓣,墨色的浓淡间藏着宋人的风骨。你端起酒杯,起身去敬酒,绕到桌子的另一侧。就在你转身的那个瞬间,那只花瓶变了。

不是换了瓶子。是同一只瓶子,同一个位置,但当你从另一侧望过去,瓶身上不再是梅花,而是一只振翅欲飞的孔雀——尾羽展开如扇,眼斑在灯光下流转着翡翠与钴蓝的光泽。

你愣住了。揉揉眼睛,再绕回原来的位置——梅花。再绕过去——孔雀。

同一个物体,两个完全不同的真相,取决于你从哪个角度看它。

这不是魔法。至少在 JanusMesh 出现之后,这不再是魔法了。

这是计算机视觉领域一个古老而迷人的命题:3D 视觉错觉(3D Visual Illusion)。而台湾阳明交通大学的一个四人研究团队,在 2026 年的夏天,用最优雅的方式解开了这个谜语。


🎭 第一章:双面神的遗产——什么是 3D 视觉错觉?

罗马神话里有一个神叫雅努斯(Janus)。他有两张脸,一张望着过去,一张望着未来,因此一月(January)以他命名——站在新旧年交替的门槛上,同时看见来路与去途。

3D 视觉错觉做的就是这样一件事:创造一个三维物体,让它从 A 角度看起来是 X,从 B 角度看起来是 Y,而从其他任何角度望过去,只是一团难以辨认的抽象形状。

这和你在美术馆里见过的那些"变形画"(anamorphosis)有点像——一幅画从正面看是乱糟糟的色块,只有站在某个特定的点、某个特定的角度,才能看出其中隐藏的肖像。但 3D 视觉错觉比变形画更进了一步:它不是在二维平面上玩透视游戏,而是在真正的三维空间里雕刻出一个"双面实体"。

论文里举的例子堪称绝妙:一只孔雀和一颗菠萝

想象一下,你手里拿着这个物体。从左侧看,是一只羽毛华丽的孔雀,尾屏展开,每根羽翎都清晰可见。你慢慢转动它,转到正前方——画面开始变得模糊,轮廓瓦解成某种抽象的几何形态,像一块被风侵蚀了千年的石头。继续转,转到右侧——突然,一颗菠萝跃入眼帘:鳞状的表皮,顶端的簇叶,连那些菱形的" eyes "都历历在目。

同一个物体。孔雀。抽象形态。菠萝。

这就是 3 视觉错觉的魅力所在。它挑战的不仅是计算机图形学的技术边界,更是人类感知系统最深层的假设——我们总以为"看见"是一个被动的过程,眼睛像相机一样忠实记录外部世界。但 3D 错觉告诉我们:看见是一场交易,是物体表面的光线布局与你的大脑预期之间的谈判。当你控制了光线从哪些角度、以何种方式进入观者的眼睛,你就控制了"现实"本身。


🔬 第二章:前人的两条死胡同

在 JanusMesh 之前,研究者们尝试过两条路,但两条路都走进了死胡同。

第一条路:优化的苦行

这条路的核心思路很朴素:给我一个 3D 表示(比如神经辐射场 NeRF,或者一个网格 mesh),我用分数蒸馏采样(Score Distillation Sampling, SDS)反复优化它,让它从角度 A 渲染出来时像孔雀,从角度 B 渲染出来时像菠萝。

DreamFusion(2022)是这条路的开山之作,后来 Shape From Semantics 等方法沿用了同样的思路。理论上可行,实际上问题一大堆:

首先是。论文里提到,Shape From Semantics 生成一个错觉物体需要 ~40 分钟。40 分钟!在这个 diffusion 模型秒出图的时代,40 分钟足够让用户的耐心从珠穆朗玛峰融化到马里亚纳海沟。

其次是过饱和。SDS 的优化过程有种诡异的倾向——它会不断推高颜色的饱和度,直到物体看起来像被丢进了霓虹灯管堆里。一只孔雀变成了荧光孔雀,一颗菠萝变成了核辐射菠萝。论文里的对比图触目惊心:基线方法生成的"菠萝",黄得刺眼,橙得发胀,像是 Photoshop 里饱和度滑块被拖到了最右端。

这条路就像让一个人用砂纸磨一块石头,目标是把它磨成一个完美的球体。理论上只要你磨得足够久,总能接近球形。但过程中会产生大量热量(过饱和),而且你真的要磨很久很久(40分钟)。

第二条路:粗暴的缝合

第二条路走另一个极端:既然优化这么痛苦,不如直接拼接吧!分别生成一只孔雀的 3D 模型和一颗菠萝的 3D 模型,然后把它们硬生生缝在一起,一个占左半边,一个占右半边。

听起来可行?论文给它取了个直白到有点残忍的名字:Direct Concatenation(直接拼接)。

结果惨不忍睹。

接缝处会出现明显的"断层"——孔雀的尾巴莫名其妙地插进了菠萝的果肉里,形成一道几何上的"伤疤"。更糟的是语义泄露(semantic leakage):当你站在"孔雀视角"望过去,本该只看见孔雀,却在某个边缘瞥见了菠萝的一片叶子;反过来,看菠萝的时候,孔雀的一根羽毛从不该出现的地方探出头来。

这就像把两张不同的照片用剪刀剪开再胶带粘在一起——胶带永远会被看见,而且两张照片的内容会互相"渗透"。

论文里的对比图用红箭头标注了这些泄露区域,触目惊心。缝合怪终究是缝合怪,不管你用的胶带有多透明。

两条路的共同困境

这两条路揭示了一个深层矛盾:

  • 优化方法太慢、太假(颜色过饱和)
  • 拼接方法太糙、太漏(接缝与语义泄露)

有没有第三条路?

有没有一种方法,既不需要漫长的优化迭代,又能保证几何上的无缝融合?

JanusMesh 的回答是:有。而且只需要 3-5 分钟。


⚗️ 第三章:跨空间的炼金术——双分支去噪

JanusMesh 的核心创新,藏在它的名字里。

Janus:双面神,暗示这个系统同时处理两个语义。

Mesh:网格,表明输出是一个真正的 3D 网格,而不是只能渲染不能触摸的隐式表示。

但最有意思的是它的副标题:Cross-Space Denoising(跨空间去噪)。这个词组像一把钥匙,打开了整个方法的黑箱。

3.1 先理解基础:TRELLIS 与 Rectified Flow

要理解 JanusMesh,你得先认识它的"底座"——TRELLIS。

TRELLIS 是 2025 年 CVPR 上的一篇工作,本质上是一个 3D 生成器。它用一种叫 Rectified Flow 的技术,从一个纯噪声的 3D latent(可以粗略理解为一团"数字泥巴")出发,一步步"去噪",最终雕刻出一个完整的 3D 形状。

这个过程有点像雕塑家面对一块大理石:一开始什么都看不清,只有粗糙的轮廓。然后他用凿子一下一下地敲,每次敲击都去掉一些不需要的部分,让形状逐渐浮现。只不过这里的"凿子"不是物理工具,而是神经网络的前向传播。

TRELLIS 的特殊之处在于它的两阶段结构:

  1. 第一阶段:预测一个低分辨率的稀疏体素结构(sparse voxel structure)——你可以把它想象成 Minecraft 里的方块堆,只不过这些方块不是立方体,而是更灵活的"有符号距离场"(Signed Distance Field, SDF)。
  2. 第二阶段:在这个粗糙的骨架上添加高维的外观特征,让表面变得光滑、细腻。

JanusMesh 的聪明之处在于:它只在第一阶段动手脚。因为它发现,几何融合(把孔雀和菠萝的形状真正融合成一个物体)必须在"骨架"层面完成。等表面纹理已经上去了,再想改形状就来不及了——就像你不可能在一幅已经完成油画上重新构图。

3.2 双分支去噪:两个雕塑家共雕一块石头

现在进入 JanusMesh 的核心:第一阶段的双分支去噪。

想象两个雕塑家,面前是同一块大理石。雕塑家 A 的任务是让它从左侧看像孔雀。雕塑家 B 的任务是让它从右侧看像菠萝。但他们不能各雕各的——最终必须是一块石头,不是两块石头拼起来的。

JanusMesh 的做法堪称精妙:

每一步去噪,两个分支并行工作。

具体来说:

  1. 分支 A(孔雀分支):接收文本提示 "a peacock",在当前的噪声 latent 上做一次去噪预测,得到一个"孔雀倾向"的 3D 形状。
  2. 分支 B(菠萝分支):接收文本提示 "a pineapple",在同一个噪声 latent 上做一次去噪预测,得到一个"菠萝倾向"的 3D 形状。

注意:两个分支共享同一个输入噪声。这是关键——如果输入噪声不同,两个分支就会各自走向不同的方向,最终产生两个独立的物体,那就回到"直接拼接"的老路了。

  1. 解码到体素空间:两个分支各自预测的 3D latent 被"解码"成体素表示(voxel space)。这里发生了一次关键的空间转换——从抽象的 latent 空间,来到了可以触摸的 3D 几何空间。

  2. CLIP 引导的方向对齐:孔雀分支和菠萝分支生成的形状可能有不同的朝向。JanusMesh 用 CLIP(OpenAI 那个能把图像和文本关联起来的模型)来搜索最佳的旋转角度,让两个形状在空间中正确对齐。就像你把两张透明胶片叠在一起,需要旋转其中一张,让它们的轮廓最大程度地吻合。

  3. SDF 融合:这是整个方法最妙的一步。

    两个对齐后的体素表示,通过有符号距离场的平均(SDF blending)融合成一个单一的体素场。SDF 的美妙之处在于:它不只是记录"这里有没有物质",而是记录"距离最近的表面有多远"。这意味着融合不是简单的布尔运算(取并集或交集),而是一种平滑的、有梯度的过渡

    你可以把它想象成两滴不同颜色的墨水在水中缓缓交融——不是泾渭分明的边界,而是一个渐变的、有机的混合区域。

  4. 重新编码:融合后的体素被重新编码回 latent 空间,成为下一步去噪的起点。

这个过程在 25 步去噪中重复进行。每一步,两个分支都从这个"融合体"出发,各自往自己的语义方向拉一点,然后又被 SDF 融合拉回到一个统一的几何体中。就像拔河——两边的力量在动态平衡中,最终雕刻出一个既能满足孔雀语义、又能满足菠萝语义的几何形态。

3.3 为什么叫"跨空间"去噪?

注意上述流程中的一个关键细节:latent → voxel → latent。

每一步去噪,系统都要从 latent 空间"跳"到 voxel 空间做融合,然后再"跳"回来继续去噪。这种在不同表示空间之间来回穿梭的操作,就是"跨空间"(cross-space)一词的由来。

这个设计借鉴了另一篇工作 LookingGlass 的思想。直接对 latent 做几何操作会导致分布偏移(distribution shift),就像你在一个压缩过的 JPEG 图片上直接画直线,保存后再打开会发现线条变成了锯齿。而先解码到几何空间再做融合,就能保证操作的几何有效性。

论文作者把这个过程形容得非常精确:"This cross-space denoising ensures the geometric validity of the blended mesh."(这种跨空间去噪确保了融合网格的几何有效性。)

科学写作的优雅之处,就在于能用一句话把复杂的直觉讲清楚。

3.4 Noise Guidance:当两个声音不够,需要第三个

在两分支的情况下,上述流程已经能工作得很好。但作者们不满足于此——他们问了一个更激进的问题:能不能做三个?

三个语义,三个视角,360° 均匀分布:0°、120°、240°。

比如:从正面看是葡萄,转 120° 是菠萝,再转 120° 是竹子。

但三个分支的融合比两个分支困难得多。三个几何体在空间中互相挤压,产生的冲突更强。作者们引入了一个叫 Noise Guidance(噪声引导)的机制,具体来说是一种叫 Space Control Guidance 的技术,用一个预生成的单语义物体的"先验"来引导去噪过程。在三物体的情况下,这个引导在 25 步中的前 20 步都保持开启,提供更强的结构约束。

这是一个很务实的工程决策:两物体可以不用引导,三物体必须用,而且要用得更狠。


🎨 第四章:给雕塑穿上隐身衣——视图条件纹理合成

第一阶段结束后,你得到了一个几何上无缝融合的 3D 网格。但这个网格还没有颜色——它像一个石膏模型,形状对了,但表面是单调的灰白色。

现在进入第二阶段:视图条件纹理合成(View-Conditioned Texture Synthesis)。

这个阶段的任务,是把这个石膏模型"上色",让它从左侧看像孔雀的羽毛,从右侧看像菠萝的表皮,而从其他角度看则是一种自然的、不泄露任何语义的中性外观。

4.1 从 2D 扩散模型借来的画笔

JanusMesh 在这个阶段借用了 Stable Diffusion——那个让整个 AI 绘画圈疯狂的两维扩散模型。

但这里有个问题:Stable Diffusion 生成的是二维图像,而我们要给的是三维网格上色。怎么把 2D 的图像"贴"到 3D 的表面上?

答案是:投影与聚合(Projection and Aggregation)。

具体流程如下:

  1. 从目标视角 θ₁(孔雀视角)出发,用 Stable Diffusion 生成一张"孔雀视角应该看到的图像"。
  2. 从目标视角 θ₂(菠萝视角)出发,用 Stable Diffusion 生成一张"菠萝视角应该看到的图像"。
  3. 将这两张 2D 图像反投影(un-project)到 3D 网格的表面。你可以想象成用两盏幻灯机,从两个角度把不同的画面打在同一个雕塑上。
  4. 通过 Mesh Texture Aggregation(网格纹理聚合),把这些来自不同视角的纹理信息融合成网格表面的统一纹理。

这里的"聚合"不是简单的覆盖。它需要考虑:

  • 哪些表面区域从 θ₁ 可见?这些区域应该主要显示孔雀的纹理。
  • 哪些表面区域从 θ₂ 可见?这些区域应该主要显示菠萝的纹理。
  • 哪些区域从两个视角都不可见(背面、底部)?这些区域可以分配中性纹理,避免任何语义泄露。
  • 交界区域如何处理?需要平滑过渡,避免出现"纹理接缝"。

4.2 为什么纹理和几何要分阶段?

你可能会有疑问:为什么不能同时做几何融合和纹理合成?为什么要分成两个阶段?

答案藏在论文的一个设计决策里:几何融合只在 TRELLIS 的第一阶段(结构预测阶段)进行,而纹理合成是在几何确定之后才开始的。

这个解耦(decoupling)有几个好处:

  1. 降低复杂度:同时优化几何和纹理会让搜索空间变得极其庞大,容易陷入局部最优。
  2. 保证几何一致性:先确定一个"好"的几何形状,再给它上色,避免了纹理优化过程中意外扭曲几何的风险。
  3. 模块化:两个阶段可以独立调试和改进。如果你发现了一个更好的纹理合成方法,可以直接替换第二阶段,而不需要改动第一阶段。

这就像先搭好房子的钢筋骨架,再刷墙贴壁纸。你不会在水泥还没干的时候就开始选窗帘。


🏆 第五章:数字不说谎——实验与评估

一个好的方法,不仅要在概念上漂亮,还得在数字上站得住脚。JanusMesh 的作者们设计了一套相当严谨的评估协议。

5.1 评估指标:多维度的审判

论文使用了四个层面的指标:

1. CLIP 相似度

CLIP 是一个能同时理解图像和文本的模型。把生成的 3D 物体从目标视角渲染成图像,然后计算这张图像与目标文本提示(如 "a peacock")之间的 CLIP 相似度。分数越高,说明"看起来越像"。

2. GPT-4.1-mini 判断

这是最有意思的一个指标。作者们把渲染图丢给 GPT-4.1-mini,问它"这张图里是什么?"如果 GPT 能正确说出"孔雀"或"菠萝",说明语义识别成功。

用一个大语言模型来做视觉评估,这在 2026 年已经成为一种潮流。GPT-4.1-mini 的"理解力"在某种程度上比传统指标更接近人类的感知。

3. FID / KID

Fréchet Inception Distance 和 Kernel Inception Distance,衡量生成图像与真实图像分布之间的距离。分数越低越好。

4. 目标检测(Object Detection)

论文还引入了一个新颖的指标:用目标检测模型(如 YOLO 系列)来检测渲染图中是否存在目标物体。检测到了 = 成功,没检测到 = 失败。这是一个更"硬"的指标——不像 CLIP 相似度那样连续,而是二元的对/错。

5.2 性能数据:3-5 分钟的奇迹

论文的核心性能数据如下:

方法 生成时间 几何一致性 语义识别 颜色质量
Shape From Semantics (SDS) ~40 分钟 差(过饱和)
Direct Concatenation 差(接缝) 差(泄露)
JanusMesh 3-5 分钟

3-5 分钟 vs 40 分钟。这是一个数量级的提升。而且 JanusMesh 在质量上也全面超越了基线方法。

论文里的对比图很有说服力:

  • SDS 基线:颜色过饱和,孔雀的羽毛变成了荧光蓝绿色
  • Direct Concatenation:接缝清晰可见,菠萝的叶子从孔雀视角泄露出来
  • JanusMesh:无缝过渡,两个语义都清晰可辨,颜色自然

5.3 消融实验:验证每个组件的价值

好的论文会做消融实验(ablation study)——把方法拆开,看看每个组件到底贡献了多少。

JanusMesh 的消融实验验证了:

  1. Cross-space denoising 是必要的:直接在 latent 空间做融合(不跳到 voxel 空间)会导致几何质量显著下降。
  2. SDF blending 优于简单平均:SDF 的平滑过渡特性对消除接缝至关重要。
  3. CLIP 对齐是必要的:如果没有方向对齐,两个语义的几何体会互相错位,导致融合失败。
  4. View-conditioned texturing 优于全局纹理:如果用统一的纹理覆盖整个网格,非目标视角会出现语义泄露。

这些消融实验像一场"控制变量"的科学审判,逐一确认了每个设计决策的正确性。

5.4 扩展性:从双面神到三面神

论文还展示了三物体错觉的扩展能力——葡萄、菠萝、竹子,三个语义共享同一个 3D 表面,分别对应 0°、120°、240° 的视角。

虽然论文没有给出三物体情况下的定量指标(主要评估集中在两物体),但定性结果展示了框架的可扩展性。三物体的几何冲突更强,所以 Noise Guidance 必须开启,而且引导强度更大(25 步中的前 20 步)。

这是一个务实的限制:三物体"可以"做,但比两物体更困难。作者们没有夸大,而是诚实地报告了这一点。


🌌 尾声:当 AI 学会变魔术之后

让我们回到晚宴上的那只花瓶。

当 JanusMesh 把生成时间从 40 分钟压缩到 3-5 分钟,当几何接缝和语义泄露被 SDF 融合魔法般地消除,当颜色过饱和的问题被视图条件纹理合成优雅地解决——我们得到了什么?

我们得到的不仅是一个更快更好的 3D 生成算法。我们得到的是一种新的创造方式

想象一下未来的应用场景:

  • 艺术装置:博物馆里的一座雕塑,正面看是雅典娜,背面看是美杜莎,侧面看是一团抽象的大理石纹理。
  • 产品设计:一个花瓶,从客厅沙发角度看是中式青花,从餐桌角度看是北欧极简。
  • 游戏资产:一把剑,玩家从正面看是圣光之刃,敌人从背面看是恶魔之牙。
  • 建筑立面:一栋大楼,从东边看像帆船,从西边看像山峰,从正面看只是一面普通的玻璃幕墙。

这些曾经只存在于概念艺术和科幻小说中的想法,现在可以用一台普通的 GPU,在喝一杯咖啡的时间里生成出来。

而且 JanusMesh 是 training-free(无需训练)的。这意味着你不需要收集成千上万个"双面雕塑"的数据集来训练一个专门的模型。你只需要一台装好了 TRELLIS 和 Stable Diffusion 的机器,输入两个文本提示,等几分钟,就能得到你的专属错觉雕塑。

这种"零样本"(zero-shot)能力是 JanusMesh 最迷人的地方之一。它不是在模仿人类艺术家已经创造过的作品,而是在利用已有的通用知识(TRELLIS 的 3D 生成能力 + Stable Diffusion 的 2D 生成能力),通过巧妙的组合,创造出全新的东西。

这是 AI 创造力的一个美妙范例:不是替代人类艺术家,而是给人类艺术家一把新的凿子。

最后的思考

JanusMesh 的论文标题里有一个词我觉得特别贴切:Illusion(错觉)。

在认知科学的语境中,错觉不是"错误",而是感知系统工作方式的揭示。当你看到一个 3D 错觉物体,你其实在同时体验两种矛盾的真相——而且你的大脑不得不接受:两者都是"真的",只是取决于你站在哪里。

这让我想起物理学中的一个概念:参考系

在经典力学中,一个物体的运动状态取决于观察者所在的参考系。在狭义相对论中,时间和空间的测量取决于观察者的速度。在量子力学中,测量结果取决于你选择了什么样的观测方式。

JanusMesh 的 3D 错觉物体,某种程度上是一个宏观尺度的量子叠加态——在测量(观察)之前,它既不是孔雀也不是菠萝;在测量之后,它根据你的"观测角度"坍缩成其中一个状态。

当然,这个类比是诗意化的,不是科学化的。3D 错觉物体没有量子纠缠,也没有波函数坍缩。但那种"同一个实体承载多个互不兼容的语义"的感觉,确实与量子叠加有着某种审美上的共鸣。

或许这就是为什么 3D 视觉错觉如此迷人:它把最深层的物理直觉(参考系依赖性)和最表层的感官体验(看见一只孔雀或一颗菠萝)连接在了一起。JanusMesh 用算法实现了这种连接,而我们——作为观众、作为读者、作为终将拥有这种技术的未来用户——只需要转动那个雕塑,然后惊叹。

转过去,是孔雀。

转过来,是菠萝。

中间那些模糊的角度?那是留给想象的空间。


参考文献

  1. Zhang, S.-L., Cheng, H.-H., Yang, T.-J., & Liu, Y.-L. (2026). JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising. arXiv preprint arXiv:2606.20563. Accepted to ECCV 2026. Project Page

  2. Xiang, J., Lv, Z., Xu, S., Deng, Y., Wang, R., Zhang, B., Chen, D., Tong, X., & Yang, J. (2025). Structured 3D Latents for Scalable and Versatile 3D Generation. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 21469–21480.

  3. Poole, B., Jain, A., Barron, J. T., & Mildenhall, B. (2022). DreamFusion: Text-to-3D Using 2D Diffusion. arXiv preprint arXiv:2209.14988.

  4. Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 10684–10695.

  5. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al. (2021). Learning Transferable Visual Models from Natural Language Supervision. International Conference on Machine Learning (ICML), 8748–8763.

  6. Geng, Z., Sun, Y., Kwon, M., & Essa, I. (2024). LookingGlass: Generative Anaglyphs from Any Image. arXiv preprint arXiv:2404.06448.

  7. Geng, Z., Kwon, M., & Essa, I. (2024). Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

  8. Li, Y., Du, C., Xue, Z., Liu, C., Li, C., Zheng, W., & Fu, Y. (2024). SyncTweedies: A Generative Approach to Taming Multi-Modal Tweedie for Audio-Visual-Language Generation. arXiv preprint arXiv:2409.08276.

  9. Oliva, A., Torralba, A., & Schyns, P. G. (2006). Hybrid Images. ACM Transactions on Graphics (TOG), 25(3), 527–532.

  10. Lipman, Y., Chen, R. T. Q., Ben-Hamu, H., Nickel, M., & Le, M. (2023). Flow Matching for Generative Modeling. International Conference on Learning Representations (ICLR).


"当你转动它,世界就变了。这不是魔法——这是算法的优雅。"

#论文 #arXiv #CV #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录