旋转的谜语:当一尊雕塑藏住了两个世界
旋转的谜语:当一尊雕塑藏住了两个世界
> *——JanusMesh 深度解读:五分钟,让 AI 学会变魔术*
---
引子:晚宴上的那只花瓶
想象一个场景。
你坐在一场晚宴的长桌尽头,水晶吊灯投下温暖的光。桌中央摆着一只青花瓷瓶,你从这里看过去,瓶身上绘着一枝盛放的梅花——遒劲的枝干,疏朗的花瓣,墨色的浓淡间藏着宋人的风骨。你端起酒杯,起身去敬酒,绕到桌子的另一侧。就在你转身的那个瞬间,那只花瓶变了。
不是换了瓶子。是同一只瓶子,同一个位置,但当你从另一侧望过去,瓶身上不再是梅花,而是一只振翅欲飞的孔雀——尾羽展开如扇,眼斑在灯光下流转着翡翠与钴蓝的光泽。
你愣住了。揉揉眼睛,再绕回原来的位置——梅花。再绕过去——孔雀。
同一个物体,两个完全不同的真相,取决于你从哪个角度看它。
这不是魔法。至少在 JanusMesh 出现之后,这不再是魔法了。
这是计算机视觉领域一个古老而迷人的命题:3D 视觉错觉(3D Visual Illusion)。而台湾阳明交通大学的一个四人研究团队,在 2026 年的夏天,用最优雅的方式解开了这个谜语。
---
🎭 第一章:双面神的遗产——什么是 3D 视觉错觉?
罗马神话里有一个神叫雅努斯(Janus)。他有两张脸,一张望着过去,一张望着未来,因此一月(January)以他命名——站在新旧年交替的门槛上,同时看见来路与去途。
3D 视觉错觉做的就是这样一件事:创造一个三维物体,让它从 A 角度看起来是 X,从 B 角度看起来是 Y,而从其他任何角度望过去,只是一团难以辨认的抽象形状。
这和你在美术馆里见过的那些"变形画"(anamorphosis)有点像——一幅画从正面看是乱糟糟的色块,只有站在某个特定的点、某个特定的角度,才能看出其中隐藏的肖像。但 3D 视觉错觉比变形画更进了一步:它不是在二维平面上玩透视游戏,而是在真正的三维空间里雕刻出一个"双面实体"。
论文里举的例子堪称绝妙:一只孔雀和一颗菠萝。
想象一下,你手里拿着这个物体。从左侧看,是一只羽毛华丽的孔雀,尾屏展开,每根羽翎都清晰可见。你慢慢转动它,转到正前方——画面开始变得模糊,轮廓瓦解成某种抽象的几何形态,像一块被风侵蚀了千年的石头。继续转,转到右侧——突然,一颗菠萝跃入眼帘:鳞状的表皮,顶端的簇叶,连那些菱形的" eyes "都历历在目。
同一个物体。孔雀。抽象形态。菠萝。
这就是 3 视觉错觉的魅力所在。它挑战的不仅是计算机图形学的技术边界,更是人类感知系统最深层的假设——我们总以为"看见"是一个被动的过程,眼睛像相机一样忠实记录外部世界。但 3D 错觉告诉我们:看见是一场交易,是物体表面的光线布局与你的大脑预期之间的谈判。当你控制了光线从哪些角度、以何种方式进入观者的眼睛,你就控制了"现实"本身。
---
🔬 第二章:前人的两条死胡同
在 JanusMesh 之前,研究者们尝试过两条路,但两条路都走进了死胡同。
第一条路:优化的苦行
这条路的核心思路很朴素:给我一个 3D 表示(比如神经辐射场 NeRF,或者一个网格 mesh),我用分数蒸馏采样(Score Distillation Sampling, SDS)反复优化它,让它从角度 A 渲染出来时像孔雀,从角度 B 渲染出来时像菠萝。
DreamFusion(2022)是这条路的开山之作,后来 Shape From Semantics 等方法沿用了同样的思路。理论上可行,实际上问题一大堆:
首先是慢。论文里提到,Shape From Semantics 生成一个错觉物体需要 ~40 分钟。40 分钟!在这个 diffusion 模型秒出图的时代,40 分钟足够让用户的耐心从珠穆朗玛峰融化到马里亚纳海沟。
其次是过饱和。SDS 的优化过程有种诡异的倾向——它会不断推高颜色的饱和度,直到物体看起来像被丢进了霓虹灯管堆里。一只孔雀变成了荧光孔雀,一颗菠萝变成了核辐射菠萝。论文里的对比图触目惊心:基线方法生成的"菠萝",黄得刺眼,橙得发胀,像是 Photoshop 里饱和度滑块被拖到了最右端。
这条路就像让一个人用砂纸磨一块石头,目标是把它磨成一个完美的球体。理论上只要你磨得足够久,总能接近球形。但过程中会产生大量热量(过饱和),而且你真的要磨很久很久(40分钟)。
第二条路:粗暴的缝合
第二条路走另一个极端:既然优化这么痛苦,不如直接拼接吧!分别生成一只孔雀的 3D 模型和一颗菠萝的 3D 模型,然后把它们硬生生缝在一起,一个占左半边,一个占右半边。
听起来可行?论文给它取了个直白到有点残忍的名字:Direct Concatenation(直接拼接)。
结果惨不忍睹。
接缝处会出现明显的"断层"——孔雀的尾巴莫名其妙地插进了菠萝的果肉里,形成一道几何上的"伤疤"。更糟的是语义泄露(semantic leakage):当你站在"孔雀视角"望过去,本该只看见孔雀,却在某个边缘瞥见了菠萝的一片叶子;反过来,看菠萝的时候,孔雀的一根羽毛从不该出现的地方探出头来。
这就像把两张不同的照片用剪刀剪开再胶带粘在一起——胶带永远会被看见,而且两张照片的内容会互相"渗透"。
论文里的对比图用红箭头标注了这些泄露区域,触目惊心。缝合怪终究是缝合怪,不管你用的胶带有多透明。
两条路的共同困境
这两条路揭示了一个深层矛盾:
- 优化方法太慢、太假(颜色过饱和)
- 拼接方法太糙、太漏(接缝与语义泄露)
有没有一种方法,既不需要漫长的优化迭代,又能保证几何上的无缝融合?
JanusMesh 的回答是:有。而且只需要 3-5 分钟。
---
⚗️ 第三章:跨空间的炼金术——双分支去噪
JanusMesh 的核心创新,藏在它的名字里。
Janus:双面神,暗示这个系统同时处理两个语义。
Mesh:网格,表明输出是一个真正的 3D 网格,而不是只能渲染不能触摸的隐式表示。
但最有意思的是它的副标题:Cross-Space Denoising(跨空间去噪)。这个词组像一把钥匙,打开了整个方法的黑箱。
3.1 先理解基础:TRELLIS 与 Rectified Flow
要理解 JanusMesh,你得先认识它的"底座"——TRELLIS。
TRELLIS 是 2025 年 CVPR 上的一篇工作,本质上是一个 3D 生成器。它用一种叫 Rectified Flow 的技术,从一个纯噪声的 3D latent(可以粗略理解为一团"数字泥巴")出发,一步步"去噪",最终雕刻出一个完整的 3D 形状。
这个过程有点像雕塑家面对一块大理石:一开始什么都看不清,只有粗糙的轮廓。然后他用凿子一下一下地敲,每次敲击都去掉一些不需要的部分,让形状逐渐浮现。只不过这里的"凿子"不是物理工具,而是神经网络的前向传播。
TRELLIS 的特殊之处在于它的两阶段结构:
1. 第一阶段:预测一个低分辨率的稀疏体素结构(sparse voxel structure)——你可以把它想象成 Minecraft 里的方块堆,只不过这些方块不是立方体,而是更灵活的"有符号距离场"(Signed Distance Field, SDF)。 2. 第二阶段:在这个粗糙的骨架上添加高维的外观特征,让表面变得光滑、细腻。
JanusMesh 的聪明之处在于:它只在第一阶段动手脚。因为它发现,几何融合(把孔雀和菠萝的形状真正融合成一个物体)必须在"骨架"层面完成。等表面纹理已经上去了,再想改形状就来不及了——就像你不可能在一幅已经完成油画上重新构图。
3.2 双分支去噪:两个雕塑家共雕一块石头
现在进入 JanusMesh 的核心:第一阶段的双分支去噪。
想象两个雕塑家,面前是同一块大理石。雕塑家 A 的任务是让它从左侧看像孔雀。雕塑家 B 的任务是让它从右侧看像菠萝。但他们不能各雕各的——最终必须是一块石头,不是两块石头拼起来的。
JanusMesh 的做法堪称精妙:
每一步去噪,两个分支并行工作。
具体来说:
1. 分支 A(孔雀分支):接收文本提示 "a peacock",在当前的噪声 latent 上做一次去噪预测,得到一个"孔雀倾向"的 3D 形状。 2. 分支 B(菠萝分支):接收文本提示 "a pineapple",在同一个噪声 latent 上做一次去噪预测,得到一个"菠萝倾向"的 3D 形状。
注意:两个分支共享同一个输入噪声。这是关键——如果输入噪声不同,两个分支就会各自走向不同的方向,最终产生两个独立的物体,那就回到"直接拼接"的老路了。
3. 解码到体素空间:两个分支各自预测的 3D latent 被"解码"成体素表示(voxel space)。这里发生了一次关键的空间转换——从抽象的 latent 空间,来到了可以触摸的 3D 几何空间。
4. CLIP 引导的方向对齐:孔雀分支和菠萝分支生成的形状可能有不同的朝向。JanusMesh 用 CLIP(OpenAI 那个能把图像和文本关联起来的模型)来搜索最佳的旋转角度,让两个形状在空间中正确对齐。就像你把两张透明胶片叠在一起,需要旋转其中一张,让它们的轮廓最大程度地吻合。
5. SDF 融合:这是整个方法最妙的一步。
两个对齐后的体素表示,通过有符号距离场的平均(SDF blending)融合成一个单一的体素场。SDF 的美妙之处在于:它不只是记录"这里有没有物质",而是记录"距离最近的表面有多远"。这意味着融合不是简单的布尔运算(取并集或交集),而是一种平滑的、有梯度的过渡。
你可以把它想象成两滴不同颜色的墨水在水中缓缓交融——不是泾渭分明的边界,而是一个渐变的、有机的混合区域。
6. 重新编码:融合后的体素被重新编码回 latent 空间,成为下一步去噪的起点。
这个过程在 25 步去噪中重复进行。每一步,两个分支都从这个"融合体"出发,各自往自己的语义方向拉一点,然后又被 SDF 融合拉回到一个统一的几何体中。就像拔河——两边的力量在动态平衡中,最终雕刻出一个既能满足孔雀语义、又能满足菠萝语义的几何形态。
3.3 为什么叫"跨空间"去噪?
注意上述流程中的一个关键细节:latent → voxel → latent。
每一步去噪,系统都要从 latent 空间"跳"到 voxel 空间做融合,然后再"跳"回来继续去噪。这种在不同表示空间之间来回穿梭的操作,就是"跨空间"(cross-space)一词的由来。
这个设计借鉴了另一篇工作 LookingGlass 的思想。直接对 latent 做几何操作会导致分布偏移(distribution shift),就像你在一个压缩过的 JPEG 图片上直接画直线,保存后再打开会发现线条变成了锯齿。而先解码到几何空间再做融合,就能保证操作的几何有效性。
论文作者把这个过程形容得非常精确:"This cross-space denoising ensures the geometric validity of the blended mesh."(这种跨空间去噪确保了融合网格的几何有效性。)
科学写作的优雅之处,就在于能用一句话把复杂的直觉讲清楚。
3.4 Noise Guidance:当两个声音不够,需要第三个
在两分支的情况下,上述流程已经能工作得很好。但作者们不满足于此——他们问了一个更激进的问题:能不能做三个?
三个语义,三个视角,360° 均匀分布:0°、120°、240°。
比如:从正面看是葡萄,转 120° 是菠萝,再转 120° 是竹子。
但三个分支的融合比两个分支困难得多。三个几何体在空间中互相挤压,产生的冲突更强。作者们引入了一个叫 Noise Guidance(噪声引导)的机制,具体来说是一种叫 Space Control Guidance 的技术,用一个预生成的单语义物体的"先验"来引导去噪过程。在三物体的情况下,这个引导在 25 步中的前 20 步都保持开启,提供更强的结构约束。
这是一个很务实的工程决策:两物体可以不用引导,三物体必须用,而且要用得更狠。
---
🎨 第四章:给雕塑穿上隐身衣——视图条件纹理合成
第一阶段结束后,你得到了一个几何上无缝融合的 3D 网格。但这个网格还没有颜色——它像一个石膏模型,形状对了,但表面是单调的灰白色。
现在进入第二阶段:视图条件纹理合成(View-Conditioned Texture Synthesis)。
这个阶段的任务,是把这个石膏模型"上色",让它从左侧看像孔雀的羽毛,从右侧看像菠萝的表皮,而从其他角度看则是一种自然的、不泄露任何语义的中性外观。
4.1 从 2D 扩散模型借来的画笔
JanusMesh 在这个阶段借用了 Stable Diffusion——那个让整个 AI 绘画圈疯狂的两维扩散模型。
但这里有个问题:Stable Diffusion 生成的是二维图像,而我们要给的是三维网格上色。怎么把 2D 的图像"贴"到 3D 的表面上?
答案是:投影与聚合(Projection and Aggregation)。
具体流程如下:
1. 从目标视角 θ₁(孔雀视角)出发,用 Stable Diffusion 生成一张"孔雀视角应该看到的图像"。 2. 从目标视角 θ₂(菠萝视角)出发,用 Stable Diffusion 生成一张"菠萝视角应该看到的图像"。 3. 将这两张 2D 图像反投影(un-project)到 3D 网格的表面。你可以想象成用两盏幻灯机,从两个角度把不同的画面打在同一个雕塑上。 4. 通过 Mesh Texture Aggregation(网格纹理聚合),把这些来自不同视角的纹理信息融合成网格表面的统一纹理。
这里的"聚合"不是简单的覆盖。它需要考虑:
- 哪些表面区域从 θ₁ 可见?这些区域应该主要显示孔雀的纹理。
- 哪些表面区域从 θ₂ 可见?这些区域应该主要显示菠萝的纹理。
- 哪些区域从两个视角都不可见(背面、底部)?这些区域可以分配中性纹理,避免任何语义泄露。
- 交界区域如何处理?需要平滑过渡,避免出现"纹理接缝"。
4.2 为什么纹理和几何要分阶段?
你可能会有疑问:为什么不能同时做几何融合和纹理合成?为什么要分成两个阶段?
答案藏在论文的一个设计决策里:几何融合只在 TRELLIS 的第一阶段(结构预测阶段)进行,而纹理合成是在几何确定之后才开始的。
这个解耦(decoupling)有几个好处:
1. 降低复杂度:同时优化几何和纹理会让搜索空间变得极其庞大,容易陷入局部最优。 2. 保证几何一致性:先确定一个"好"的几何形状,再给它上色,避免了纹理优化过程中意外扭曲几何的风险。 3. 模块化:两个阶段可以独立调试和改进。如果你发现了一个更好的纹理合成方法,可以直接替换第二阶段,而不需要改动第一阶段。
这就像先搭好房子的钢筋骨架,再刷墙贴壁纸。你不会在水泥还没干的时候就开始选窗帘。
---
🏆 第五章:数字不说谎——实验与评估
一个好的方法,不仅要在概念上漂亮,还得在数字上站得住脚。JanusMesh 的作者们设计了一套相当严谨的评估协议。
5.1 评估指标:多维度的审判
论文使用了四个层面的指标:
1. CLIP 相似度
CLIP 是一个能同时理解图像和文本的模型。把生成的 3D 物体从目标视角渲染成图像,然后计算这张图像与目标文本提示(如 "a peacock")之间的 CLIP 相似度。分数越高,说明"看起来越像"。
2. GPT-4.1-mini 判断
这是最有意思的一个指标。作者们把渲染图丢给 GPT-4.1-mini,问它"这张图里是什么?"如果 GPT 能正确说出"孔雀"或"菠萝",说明语义识别成功。
用一个大语言模型来做视觉评估,这在 2026 年已经成为一种潮流。GPT-4.1-mini 的"理解力"在某种程度上比传统指标更接近人类的感知。
3. FID / KID
Fréchet Inception Distance 和 Kernel Inception Distance,衡量生成图像与真实图像分布之间的距离。分数越低越好。
4. 目标检测(Object Detection)
论文还引入了一个新颖的指标:用目标检测模型(如 YOLO 系列)来检测渲染图中是否存在目标物体。检测到了 = 成功,没检测到 = 失败。这是一个更"硬"的指标——不像 CLIP 相似度那样连续,而是二元的对/错。
5.2 性能数据:3-5 分钟的奇迹
论文的核心性能数据如下:
| 方法 | 生成时间 | 几何一致性 | 语义识别 | 颜色质量 |
|---|---|---|---|---|
| Shape From Semantics (SDS) | ~40 分钟 | 中 | 中 | 差(过饱和) |
| Direct Concatenation | 快 | 差(接缝) | 差(泄露) | 中 |
| JanusMesh | 3-5 分钟 | 优 | 优 | 优 |
论文里的对比图很有说服力:
- SDS 基线:颜色过饱和,孔雀的羽毛变成了荧光蓝绿色
- Direct Concatenation:接缝清晰可见,菠萝的叶子从孔雀视角泄露出来
- JanusMesh:无缝过渡,两个语义都清晰可辨,颜色自然
5.3 消融实验:验证每个组件的价值
好的论文会做消融实验(ablation study)——把方法拆开,看看每个组件到底贡献了多少。
JanusMesh 的消融实验验证了:
1. Cross-space denoising 是必要的:直接在 latent 空间做融合(不跳到 voxel 空间)会导致几何质量显著下降。 2. SDF blending 优于简单平均:SDF 的平滑过渡特性对消除接缝至关重要。 3. CLIP 对齐是必要的:如果没有方向对齐,两个语义的几何体会互相错位,导致融合失败。 4. View-conditioned texturing 优于全局纹理:如果用统一的纹理覆盖整个网格,非目标视角会出现语义泄露。
这些消融实验像一场"控制变量"的科学审判,逐一确认了每个设计决策的正确性。
5.4 扩展性:从双面神到三面神
论文还展示了三物体错觉的扩展能力——葡萄、菠萝、竹子,三个语义共享同一个 3D 表面,分别对应 0°、120°、240° 的视角。
虽然论文没有给出三物体情况下的定量指标(主要评估集中在两物体),但定性结果展示了框架的可扩展性。三物体的几何冲突更强,所以 Noise Guidance 必须开启,而且引导强度更大(25 步中的前 20 步)。
这是一个务实的限制:三物体"可以"做,但比两物体更困难。作者们没有夸大,而是诚实地报告了这一点。
---
🌌 尾声:当 AI 学会变魔术之后
让我们回到晚宴上的那只花瓶。
当 JanusMesh 把生成时间从 40 分钟压缩到 3-5 分钟,当几何接缝和语义泄露被 SDF 融合魔法般地消除,当颜色过饱和的问题被视图条件纹理合成优雅地解决——我们得到了什么?
我们得到的不仅是一个更快更好的 3D 生成算法。我们得到的是一种新的创造方式。
想象一下未来的应用场景:
- 艺术装置:博物馆里的一座雕塑,正面看是雅典娜,背面看是美杜莎,侧面看是一团抽象的大理石纹理。
- 产品设计:一个花瓶,从客厅沙发角度看是中式青花,从餐桌角度看是北欧极简。
- 游戏资产:一把剑,玩家从正面看是圣光之刃,敌人从背面看是恶魔之牙。
- 建筑立面:一栋大楼,从东边看像帆船,从西边看像山峰,从正面看只是一面普通的玻璃幕墙。
而且 JanusMesh 是 training-free(无需训练)的。这意味着你不需要收集成千上万个"双面雕塑"的数据集来训练一个专门的模型。你只需要一台装好了 TRELLIS 和 Stable Diffusion 的机器,输入两个文本提示,等几分钟,就能得到你的专属错觉雕塑。
这种"零样本"(zero-shot)能力是 JanusMesh 最迷人的地方之一。它不是在模仿人类艺术家已经创造过的作品,而是在利用已有的通用知识(TRELLIS 的 3D 生成能力 + Stable Diffusion 的 2D 生成能力),通过巧妙的组合,创造出全新的东西。
这是 AI 创造力的一个美妙范例:不是替代人类艺术家,而是给人类艺术家一把新的凿子。
最后的思考
JanusMesh 的论文标题里有一个词我觉得特别贴切:Illusion(错觉)。
在认知科学的语境中,错觉不是"错误",而是感知系统工作方式的揭示。当你看到一个 3D 错觉物体,你其实在同时体验两种矛盾的真相——而且你的大脑不得不接受:两者都是"真的",只是取决于你站在哪里。
这让我想起物理学中的一个概念:参考系。
在经典力学中,一个物体的运动状态取决于观察者所在的参考系。在狭义相对论中,时间和空间的测量取决于观察者的速度。在量子力学中,测量结果取决于你选择了什么样的观测方式。
JanusMesh 的 3D 错觉物体,某种程度上是一个宏观尺度的量子叠加态——在测量(观察)之前,它既不是孔雀也不是菠萝;在测量之后,它根据你的"观测角度"坍缩成其中一个状态。
当然,这个类比是诗意化的,不是科学化的。3D 错觉物体没有量子纠缠,也没有波函数坍缩。但那种"同一个实体承载多个互不兼容的语义"的感觉,确实与量子叠加有着某种审美上的共鸣。
或许这就是为什么 3D 视觉错觉如此迷人:它把最深层的物理直觉(参考系依赖性)和最表层的感官体验(看见一只孔雀或一颗菠萝)连接在了一起。JanusMesh 用算法实现了这种连接,而我们——作为观众、作为读者、作为终将拥有这种技术的未来用户——只需要转动那个雕塑,然后惊叹。
转过去,是孔雀。
转过来,是菠萝。
中间那些模糊的角度?那是留给想象的空间。
---
参考文献
1. Zhang, S.-L., Cheng, H.-H., Yang, T.-J., & Liu, Y.-L. (2026). *JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising*. arXiv preprint arXiv:2606.20563. Accepted to ECCV 2026. Project Page
2. Xiang, J., Lv, Z., Xu, S., Deng, Y., Wang, R., Zhang, B., Chen, D., Tong, X., & Yang, J. (2025). Structured 3D Latents for Scalable and Versatile 3D Generation. *Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)*, 21469–21480.
3. Poole, B., Jain, A., Barron, J. T., & Mildenhall, B. (2022). DreamFusion: Text-to-3D Using 2D Diffusion. *arXiv preprint arXiv:2209.14988*.
4. Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. *Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)*, 10684–10695.
5. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al. (2021). Learning Transferable Visual Models from Natural Language Supervision. *International Conference on Machine Learning (ICML)*, 8748–8763.
6. Geng, Z., Sun, Y., Kwon, M., & Essa, I. (2024). LookingGlass: Generative Anaglyphs from Any Image. *arXiv preprint arXiv:2404.06448*.
7. Geng, Z., Kwon, M., & Essa, I. (2024). Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models. *Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)*.
8. Li, Y., Du, C., Xue, Z., Liu, C., Li, C., Zheng, W., & Fu, Y. (2024). SyncTweedies: A Generative Approach to Taming Multi-Modal Tweedie for Audio-Visual-Language Generation. *arXiv preprint arXiv:2409.08276*.
9. Oliva, A., Torralba, A., & Schyns, P. G. (2006). Hybrid Images. *ACM Transactions on Graphics (TOG)*, 25(3), 527–532.
10. Lipman, Y., Chen, R. T. Q., Ben-Hamu, H., Nickel, M., & Le, M. (2023). Flow Matching for Generative Modeling. *International Conference on Learning Representations (ICLR)*.
---
*"当你转动它,世界就变了。这不是魔法——这是算法的优雅。"*
#论文 #arXiv #CV #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens