京东 JoyAI-Image 深度解析：8B+16B 统一架构唤醒空间智能，LongText-Bench 0.963 中英双 SOTA

> 空间智能不是锦上添花，而是统一视觉模型的地基。京东 JoyAI-Image 用 8B 理解大脑 + 16B 生成引擎，把理解、生成、编辑拧成一股绳，证明了"看懂"和"画出"之间可以互相喂养。

一、为什么理解-生成-编辑必须是同一个模型

现有的多模态模型大致分两派：

理解派：MLLM 做 VQA、OCR、空间推理，但不会画图
生成派：扩散模型做文生图、图生图，但"不懂"自己在画什么
缝合派：理解模块和生成模块硬拼在一起，各干各的，协同极弱

JoyAI-Image 的 premise 很直接：理解、生成、编辑不是三个任务，而是同一个视觉智能的三个侧面。 如果它们共享同一个认知核心，理解可以指导生成（"知道场景结构才能画对"），生成可以反哺理解（"换个角度画一遍，验证空间关系是否 consistent"）。

这个双向循环才是"空间智能"的真正含义——不是多背几个几何公式，而是让模型在"看"和"画"之间建立持续的反馈回路。

二、架构：8B 大脑 + 16B 画笔 + VAE 桥梁

JoyAI-Image 的架构设计很有工程直觉：

组件	规模	来源	角色
MLLM	8B	Qwen3-VL-8B-Instruct	认知大脑：理解、解析、指令分解
VAE	—	Wan-2.1-VAE	压缩桥梁：像素↔latent
MMDiT	16B	自研	生成引擎：去噪、合成、编辑

三阶段流水线：

1. 理解：MLLM 解析用户输入（文本/图像/指令），提取语义-空间线索 2. 编码：VAE 把原始图像压成 latent，保留高频细节（对小文字渲染至关重要） 3. 生成：MMDiT 双路架构，深度融合 MLLM 的语义条件和 VAE 的视觉特征，迭代去噪

MLLM 不是只在理解任务里工作。在生成和编辑时，它提取最后一层 hidden states 作为 MMDiT 的 primary conditioning signal。这意味着生成过程全程受"理解"指导，而不是只靠文本 embedding 硬推。

训练也是递进式的：先 fine-tune MLLM 的空间理解，再从头训练 MMDiT 的生成能力，最后联合优化编辑精度。

三、空间智能怎么"唤醒"：数据引擎是核心武器

空间智能不是模型架构里加几个模块就能实现的。JoyAI-Image 的核心武器是 OpenSpatial——一个自动化数据引擎，从 3D box-centric 表示合成空间 QA 对。

3.1 OpenSpatial 的 3D Lifting 机制

传统空间数据依赖昂贵的 3D 扫描（LiDAR、多相机 rig）。OpenSpatial 的 trick 是：从野生网络视频中"升维"出 3D。

具体做法：

输入：ScanNet/Matterport3D/ARKitScenes 等 3D 扫描数据 + 海量网络视频
所有资产统一到规范坐标系
获取场景级 3D 定向包围盒（OBB）
通过投影、可见性过滤、mask 精化，蒸馏成帧级对象属性
生成统一的 object-frame index：同步 3D/2D 框、实例 mask、部分点云、度量元数据

关键约束：多视图循环一致性。一个候选 3D 框只有在多个视角的投影都一致对齐实例 mask 时，才被验证通过。这保证了从 2D 视频"猜"出来的 3D 结构不是幻觉。

3.2 五大空间能力 + 19 个子任务

OpenSpatial-3M（300万条目）覆盖：

能力	子任务示例
空间测量 (SM)	距离估计、尺寸比较、深度估计
空间关系 (SR)	"between"、"behind"、相对位置推理
相机感知 (CP)	相机运动方向、焦距判断
多视图一致性 (MC)	跨视角对象对应、视角变化下的身份保持
场景感知推理 (SAR)	3D 场景描述、布局推理

3.3 训练数据配比（11.3M 总量）

类别	数量	占比	作用
通用理解	6.1M	54.25%	保留 broad multimodal 能力
空间理解	3.4M	29.65%	核心：OpenSpatial 3.3M + VST 49.4K
指令增强	1.4M	11.98%	改写低熵描述为高密度指令
空间编辑	137.4K	1.21%	空间指令到视觉转换的映射
其他	328.1K	2.89%	京东内部长尾数据

注意配比不是均匀的。空间理解占近30%，但通用理解仍占过半——防止过拟合到空间任务而丢失 generalist 能力。

3.4 Decoupled 学习率 + 选择性蒸馏

Vision Encoder 学习率更小（5e-6 vs 5e-5），保留预训练视觉表示
KL 蒸馏只用于通用数据，空间数据不加约束：因为基模型本身空间能力弱，强蒸馏会阻碍新空间知识的获取
动态序列打包：Flash Attention 变长接口，短序列打包减少 padding 浪费

四、实验结果：空间理解追平 Gemini-2.5-Pro，长文本渲染 SOTA

4.1 空间理解（13 个 benchmark）

模型	Spa.Avg	对比
Gemini-2.5-Pro	64.4	闭源最强
JoyAI-Image-Und (Ours)	64.4	追平 Gemini
Qwen3-VL-8B (基线)	59.1	+5.3 ↑
GPT-4o	57.7	被超越
MiMo-VL-7B	58.2	被超越

关键：在 VSI-Bench（4D 时空推理）和 AllAnglesBench（极端视角变化）上分别取得 60.1 和 61.0，这两个是最难的 4D 任务。BLINK（低层几何线索）从 49.5 跳到 61.0（+11.5），说明模型真正学会了"看深度、看大小"。

同时，通用 benchmark 如 MMBench、MMStar、OCRB 保持 competitive，没有牺牲 generalist 能力。

4.2 文生图（LongText-Bench 碾压）

模型	LongText-EN	LongText-ZH
JoyAI-Image	0.963	0.963
GPT Image 1 (High)	0.956	0.619
Qwen-Image	0.943	0.946
Z-Image	0.935	0.936
Seedream 3.0	0.896	0.878

长文本渲染是工业级痛点。JoyAI-Image 的中英双语都是 0.963，而 GPT Image 1 中文只有 0.619——差距巨大。这得益于 OCR-aware captioning 和文本渲染专用 SFT 数据。

CVTG-2K（复杂视觉文本生成）上 Word Accuracy 0.8739，也是 SOTA。

4.3 组合与推理（T2I-CoReBench）

模型	Composition Mean	Reasoning Mean	Overall
JoyAI-Image	94.2	55.9	68.7
GPT Image 1 (High)	79.8	69.0	72.6
Qwen-Image	83.7	51.7	62.4

Composition（布局/结构/关系/文本）碾压所有对手，说明"理解驱动生成"在复杂组合场景优势明显。Reasoning（逻辑/计数/空间等）略逊于 GPT Image 1，但仍 competitive。

4.4 图像编辑：空间编辑准确率 +74.7%

SpatialEdit-Bench 上，空间编辑准确率相比基线提升 74.7%。这是用户消息中提到的数字。

编辑数据引擎分三类：

通用编辑：开源数据 + 专家模型蒸馏 + 文本编辑 + 多图编辑
开放域编辑：自然场景变化
空间编辑：静态相机对象变换 + 动态相机视角变换，统一空间监督

五、关键工程细节：数据 pipeline 的五个模块

JoyAI-Image 的数据 pipeline 设计值得单独拎出来讲，因为它不是"拿一堆图丢进去训练"那么简单：

5.1 五级过滤（ progressively tightened）

阶段	分辨率	最低分辨率	美学分数	IQA 保留率
Stage 1	208p	>128	≥3.0	N/A
Stage 2	512p	>256	≥4.6	34%
Stage 3	1024p	>512	≥4.6	20%

IQA 用自研 cascaded 决策：亮度/熵/饱和度/锐度（统计）+ NIQE/CLIP-IQA/MUSIQ（感知）。人类验证准确率 90%。

5.2 四级 Captioning

Short：1-2句，模仿真实用户 prompt 分布
Long：段落级，主体+对象+空间关系+背景+光照+风格+氛围
Extended Long：纹理、材质、空间布局、微妙细节
Structured：JSON，按维度标注（主体、背景、风格、构图、可见文本），支持灵活数据组合

OCR-aware：OCR 专用模型提取文本 token → 与视觉特征融合 → MLLM 生成 caption → 后过滤确保 OCR 全覆盖、内容一致、语言不翻译。

5.3 28.5 万标签的 Rebalancing

长尾分布：2% 类别占 30%+ 频率，50% 类别 <100K
尾部全保留，头部 inverse-logarithmic 降采样
弱能力类别 +20~50% 采样 boost
自适应多样性采样：taxonomy 树层级聚合，避免语义冗余

5.4 人工评分三维体系

维度	权重	5分标准
美学	50%	电影级/艺术品级，光影构图色彩harmony
信息密度	30%	主体+对象+环境+交互，纹理丰富
风格纯度	20%	unmistakable 风格，零跨风格污染，无AI味

质量控制：5% sentinel 样本，90% 准确率门槛；日审 5%，低质量通过率 >5% 整批返工。

5.5 百万级多视图生成（Blender）

主视图 + 辅助子视图，统一朝向物体中心
射线投射剔除不可行相机位
双 prompt 标注：dense caption（自然语言）+ structured JSON（机器可解析）

六、训练策略：从预训练到 RL 的四阶段

阶段	目标	关键设计
Pre-Training	建立基本生成能力	三分辨率渐进（208p→512p→1024p），Flow Matching
Continue Training	收窄分布、提升质量	高质量子集，降低分布熵
SFT	复杂文本渲染 + 多视图生成	任务导向小数据，人工标注
RL (Flow-GRPO)	美学 + 文本对齐	多奖励模型（美学 + 文本图像对齐），组相对优化

Flow-GRPO 的奖励函数：

美学奖励模型：视觉质量
文本-图像对齐奖励模型：语义一致性

七、应用前景：VLA 和世界模型的基石

论文在 Application 章节展示了两项下游能力：

1. Thinking with Novel Views：用新视角辅助推理。比如"从这个新角度看，之前被遮挡的对象是什么？" 2. Reconstruction with Novel Views：用多视图重建 3D 结构

这些正是 VLA (Vision-Language-Action) 模型和世界模型需要的核心能力。机器人要操作物理世界，必须先"看懂"空间关系；世界模型要预测未来状态，必须保持跨视角的一致性。JoyAI-Image 证明了统一视觉模型可以为这些下游任务提供坚实的基础。

八、开源贡献：不只是发论文

资源	状态	链接
论文	已发布	arXiv:2605.04128
代码	已开源	GitHub jd-opensource/JoyAI-Image
理解模型权重	已发布	Hugging Face
编辑模型权重	已发布	Hugging Face + ModelScope
OpenSpatial-3M	已发布	Hugging Face
SpatialEdit 数据集	已发布	Hugging Face
Diffusers 支持	已合并	2026.05.08
ComfyUI 支持	已发布	2026.04.10
蒸馏版	待发布	—
多图编辑版	待发布	—
文生图版	待发布	—

京东把模型、数据、训练 recipe、工具链全部开源，这在工业界是罕见的投入。

九、为什么这篇论文重要

1. 统一架构验证：证明了 MLLM+MMDiT 的统一框架可以在理解、生成、编辑三个任务上同时达到 SOTA 或 near-SOTA，不是缝合怪 2. 空间智能的工程路径：OpenSpatial 的 3D lifting + box-centric 范式提供了一条可扩展的空间数据生产路径，不依赖昂贵的 3D 扫描 3. 双向循环的机制化：不只是理念，而是有具体训练策略（理解指导生成的 conditioning signal、生成反哺理解的 multi-view 数据） 4. 工业级数据 pipeline：五级过滤、四级 caption、28.5 万标签 rebalancing、三维人工评分——这些工程细节才是复现的关键 5. 为 VLA 和世界模型打地基：空间智能是具身智能的前提，JoyAI-Image 证明了统一视觉模型可以承载这个需求

十、局限

推理阶段：16B MMDiT + 8B MLLM，推理成本不低
Reasoning 任务：T2I-CoReBench 的 reasoning 维度仍略逊于 GPT Image 1，说明纯空间增强对抽象逻辑推理的帮助有限
文生图版尚未发布：目前只开源了理解模型和编辑模型，核心的文生图版"待发布"
蒸馏版待发布：更快推理的版本还在路上

---

论文：JoyAI-Image: Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation. Lin Song et al., Joy Future Academy, JD. arXiv:2605.04128.

GitHub：https://github.com/jd-opensource/JoyAI-Image

#空间智能 #京东 #JoyAI-Image #MLLM #MMDiT #多模态 #文生图 #图像编辑 #开源 #VLA #世界模型