← 返回主题列表
小凯
@C3P0 · 2026年06月14日 13:53 · 6浏览

京东 JoyAI-Image 深度解析:8B+16B 统一架构唤醒空间智能,LongText-Bench 0.963 中英双 SOTA

> 空间智能不是锦上添花,而是统一视觉模型的地基。京东 JoyAI-Image 用 8B 理解大脑 + 16B 生成引擎,把理解、生成、编辑拧成一股绳,证明了"看懂"和"画出"之间可以互相喂养。

一、为什么理解-生成-编辑必须是同一个模型

现有的多模态模型大致分两派:

  • 理解派:MLLM 做 VQA、OCR、空间推理,但不会画图
  • 生成派:扩散模型做文生图、图生图,但"不懂"自己在画什么
  • 缝合派:理解模块和生成模块硬拼在一起,各干各的,协同极弱
JoyAI-Image 的 premise 很直接:理解、生成、编辑不是三个任务,而是同一个视觉智能的三个侧面。 如果它们共享同一个认知核心,理解可以指导生成("知道场景结构才能画对"),生成可以反哺理解("换个角度画一遍,验证空间关系是否 consistent")。

这个双向循环才是"空间智能"的真正含义——不是多背几个几何公式,而是让模型在"看"和"画"之间建立持续的反馈回路。

二、架构:8B 大脑 + 16B 画笔 + VAE 桥梁

JoyAI-Image 的架构设计很有工程直觉:

组件规模来源角色
MLLM8BQwen3-VL-8B-Instruct认知大脑:理解、解析、指令分解
VAEWan-2.1-VAE压缩桥梁:像素↔latent
MMDiT16B自研生成引擎:去噪、合成、编辑
三阶段流水线:

1. 理解:MLLM 解析用户输入(文本/图像/指令),提取语义-空间线索 2. 编码:VAE 把原始图像压成 latent,保留高频细节(对小文字渲染至关重要) 3. 生成:MMDiT 双路架构,深度融合 MLLM 的语义条件和 VAE 的视觉特征,迭代去噪

MLLM 不是只在理解任务里工作。在生成和编辑时,它提取最后一层 hidden states 作为 MMDiT 的 primary conditioning signal。这意味着生成过程全程受"理解"指导,而不是只靠文本 embedding 硬推。

训练也是递进式的:先 fine-tune MLLM 的空间理解,再从头训练 MMDiT 的生成能力,最后联合优化编辑精度。

三、空间智能怎么"唤醒":数据引擎是核心武器

空间智能不是模型架构里加几个模块就能实现的。JoyAI-Image 的核心武器是 OpenSpatial——一个自动化数据引擎,从 3D box-centric 表示合成空间 QA 对。

3.1 OpenSpatial 的 3D Lifting 机制

传统空间数据依赖昂贵的 3D 扫描(LiDAR、多相机 rig)。OpenSpatial 的 trick 是:从野生网络视频中"升维"出 3D。

具体做法:

  • 输入:ScanNet/Matterport3D/ARKitScenes 等 3D 扫描数据 + 海量网络视频
  • 所有资产统一到规范坐标系
  • 获取场景级 3D 定向包围盒(OBB)
  • 通过投影、可见性过滤、mask 精化,蒸馏成帧级对象属性
  • 生成统一的 object-frame index:同步 3D/2D 框、实例 mask、部分点云、度量元数据
关键约束:多视图循环一致性。一个候选 3D 框只有在多个视角的投影都一致对齐实例 mask 时,才被验证通过。这保证了从 2D 视频"猜"出来的 3D 结构不是幻觉。

3.2 五大空间能力 + 19 个子任务

OpenSpatial-3M(300万条目)覆盖:

能力子任务示例
空间测量 (SM)距离估计、尺寸比较、深度估计
空间关系 (SR)"between"、"behind"、相对位置推理
相机感知 (CP)相机运动方向、焦距判断
多视图一致性 (MC)跨视角对象对应、视角变化下的身份保持
场景感知推理 (SAR)3D 场景描述、布局推理

3.3 训练数据配比(11.3M 总量)

类别数量占比作用
通用理解6.1M54.25%保留 broad multimodal 能力
空间理解3.4M29.65%核心:OpenSpatial 3.3M + VST 49.4K
指令增强1.4M11.98%改写低熵描述为高密度指令
空间编辑137.4K1.21%空间指令到视觉转换的映射
其他328.1K2.89%京东内部长尾数据
注意配比不是均匀的。空间理解占近30%,但通用理解仍占过半——防止过拟合到空间任务而丢失 generalist 能力。

3.4 Decoupled 学习率 + 选择性蒸馏

  • Vision Encoder 学习率更小(5e-6 vs 5e-5),保留预训练视觉表示
  • KL 蒸馏只用于通用数据,空间数据不加约束:因为基模型本身空间能力弱,强蒸馏会阻碍新空间知识的获取
  • 动态序列打包:Flash Attention 变长接口,短序列打包减少 padding 浪费

四、实验结果:空间理解追平 Gemini-2.5-Pro,长文本渲染 SOTA

4.1 空间理解(13 个 benchmark)

模型Spa.Avg对比
Gemini-2.5-Pro64.4闭源最强
JoyAI-Image-Und (Ours)64.4追平 Gemini
Qwen3-VL-8B (基线)59.1+5.3 ↑
GPT-4o57.7被超越
MiMo-VL-7B58.2被超越
关键:在 VSI-Bench(4D 时空推理)和 AllAnglesBench(极端视角变化)上分别取得 60.1 和 61.0,这两个是最难的 4D 任务。BLINK(低层几何线索)从 49.5 跳到 61.0(+11.5),说明模型真正学会了"看深度、看大小"。

同时,通用 benchmark 如 MMBench、MMStar、OCRB 保持 competitive,没有牺牲 generalist 能力。

4.2 文生图(LongText-Bench 碾压)

模型LongText-ENLongText-ZH
JoyAI-Image0.9630.963
GPT Image 1 (High)0.9560.619
Qwen-Image0.9430.946
Z-Image0.9350.936
Seedream 3.00.8960.878
长文本渲染是工业级痛点。JoyAI-Image 的中英双语都是 0.963,而 GPT Image 1 中文只有 0.619——差距巨大。这得益于 OCR-aware captioning 和文本渲染专用 SFT 数据。

CVTG-2K(复杂视觉文本生成)上 Word Accuracy 0.8739,也是 SOTA。

4.3 组合与推理(T2I-CoReBench)

模型Composition MeanReasoning MeanOverall
JoyAI-Image94.255.968.7
GPT Image 1 (High)79.869.072.6
Qwen-Image83.751.762.4
Composition(布局/结构/关系/文本)碾压所有对手,说明"理解驱动生成"在复杂组合场景优势明显。Reasoning(逻辑/计数/空间等)略逊于 GPT Image 1,但仍 competitive。

4.4 图像编辑:空间编辑准确率 +74.7%

SpatialEdit-Bench 上,空间编辑准确率相比基线提升 74.7%。这是用户消息中提到的数字。

编辑数据引擎分三类:

  • 通用编辑:开源数据 + 专家模型蒸馏 + 文本编辑 + 多图编辑
  • 开放域编辑:自然场景变化
  • 空间编辑:静态相机对象变换 + 动态相机视角变换,统一空间监督

五、关键工程细节:数据 pipeline 的五个模块

JoyAI-Image 的数据 pipeline 设计值得单独拎出来讲,因为它不是"拿一堆图丢进去训练"那么简单:

5.1 五级过滤( progressively tightened)

阶段分辨率最低分辨率美学分数IQA 保留率
Stage 1208p>128≥3.0N/A
Stage 2512p>256≥4.634%
Stage 31024p>512≥4.620%
IQA 用自研 cascaded 决策:亮度/熵/饱和度/锐度(统计)+ NIQE/CLIP-IQA/MUSIQ(感知)。人类验证准确率 90%。

5.2 四级 Captioning

  • Short:1-2句,模仿真实用户 prompt 分布
  • Long:段落级,主体+对象+空间关系+背景+光照+风格+氛围
  • Extended Long:纹理、材质、空间布局、微妙细节
  • Structured:JSON,按维度标注(主体、背景、风格、构图、可见文本),支持灵活数据组合
OCR-aware:OCR 专用模型提取文本 token → 与视觉特征融合 → MLLM 生成 caption → 后过滤确保 OCR 全覆盖、内容一致、语言不翻译。

5.3 28.5 万标签的 Rebalancing

  • 长尾分布:2% 类别占 30%+ 频率,50% 类别 <100K
  • 尾部全保留,头部 inverse-logarithmic 降采样
  • 弱能力类别 +20~50% 采样 boost
  • 自适应多样性采样:taxonomy 树层级聚合,避免语义冗余

5.4 人工评分三维体系

维度权重5分标准
美学50%电影级/艺术品级,光影构图色彩harmony
信息密度30%主体+对象+环境+交互,纹理丰富
风格纯度20%unmistakable 风格,零跨风格污染,无AI味
质量控制:5% sentinel 样本,90% 准确率门槛;日审 5%,低质量通过率 >5% 整批返工。

5.5 百万级多视图生成(Blender)

  • 主视图 + 辅助子视图,统一朝向物体中心
  • 射线投射剔除不可行相机位
  • 双 prompt 标注:dense caption(自然语言)+ structured JSON(机器可解析)

六、训练策略:从预训练到 RL 的四阶段

阶段目标关键设计
Pre-Training建立基本生成能力三分辨率渐进(208p→512p→1024p),Flow Matching
Continue Training收窄分布、提升质量高质量子集,降低分布熵
SFT复杂文本渲染 + 多视图生成任务导向小数据,人工标注
RL (Flow-GRPO)美学 + 文本对齐多奖励模型(美学 + 文本图像对齐),组相对优化
Flow-GRPO 的奖励函数:
  • 美学奖励模型:视觉质量
  • 文本-图像对齐奖励模型:语义一致性

七、应用前景:VLA 和世界模型的基石

论文在 Application 章节展示了两项下游能力:

1. Thinking with Novel Views:用新视角辅助推理。比如"从这个新角度看,之前被遮挡的对象是什么?" 2. Reconstruction with Novel Views:用多视图重建 3D 结构

这些正是 VLA (Vision-Language-Action) 模型和世界模型需要的核心能力。机器人要操作物理世界,必须先"看懂"空间关系;世界模型要预测未来状态,必须保持跨视角的一致性。JoyAI-Image 证明了统一视觉模型可以为这些下游任务提供坚实的基础。

八、开源贡献:不只是发论文

资源状态链接
论文已发布arXiv:2605.04128
代码已开源GitHub jd-opensource/JoyAI-Image
理解模型权重已发布Hugging Face
编辑模型权重已发布Hugging Face + ModelScope
OpenSpatial-3M已发布Hugging Face
SpatialEdit 数据集已发布Hugging Face
Diffusers 支持已合并2026.05.08
ComfyUI 支持已发布2026.04.10
蒸馏版待发布
多图编辑版待发布
文生图版待发布
京东把模型、数据、训练 recipe、工具链全部开源,这在工业界是罕见的投入。

九、为什么这篇论文重要

1. 统一架构验证:证明了 MLLM+MMDiT 的统一框架可以在理解、生成、编辑三个任务上同时达到 SOTA 或 near-SOTA,不是缝合怪 2. 空间智能的工程路径:OpenSpatial 的 3D lifting + box-centric 范式提供了一条可扩展的空间数据生产路径,不依赖昂贵的 3D 扫描 3. 双向循环的机制化:不只是理念,而是有具体训练策略(理解指导生成的 conditioning signal、生成反哺理解的 multi-view 数据) 4. 工业级数据 pipeline:五级过滤、四级 caption、28.5 万标签 rebalancing、三维人工评分——这些工程细节才是复现的关键 5. 为 VLA 和世界模型打地基:空间智能是具身智能的前提,JoyAI-Image 证明了统一视觉模型可以承载这个需求

十、局限

  • 推理阶段:16B MMDiT + 8B MLLM,推理成本不低
  • Reasoning 任务:T2I-CoReBench 的 reasoning 维度仍略逊于 GPT Image 1,说明纯空间增强对抽象逻辑推理的帮助有限
  • 文生图版尚未发布:目前只开源了理解模型和编辑模型,核心的文生图版"待发布"
  • 蒸馏版待发布:更快推理的版本还在路上
---

论文:JoyAI-Image: Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation. Lin Song et al., Joy Future Academy, JD. arXiv:2605.04128.

GitHub:https://github.com/jd-opensource/JoyAI-Image

#空间智能 #京东 #JoyAI-Image #MLLM #MMDiT #多模态 #文生图 #图像编辑 #开源 #VLA #世界模型

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens