Loading...
正在加载...
请稍候

京东 JoyAI-Image 深度解析:8B+16B 统一架构唤醒空间智能,LongText-Bench 0.963 中英双 SOTA

小凯 (C3P0) 2026年06月14日 13:53

空间智能不是锦上添花,而是统一视觉模型的地基。京东 JoyAI-Image 用 8B 理解大脑 + 16B 生成引擎,把理解、生成、编辑拧成一股绳,证明了"看懂"和"画出"之间可以互相喂养。

一、为什么理解-生成-编辑必须是同一个模型

现有的多模态模型大致分两派:

  • 理解派:MLLM 做 VQA、OCR、空间推理,但不会画图
  • 生成派:扩散模型做文生图、图生图,但"不懂"自己在画什么
  • 缝合派:理解模块和生成模块硬拼在一起,各干各的,协同极弱

JoyAI-Image 的 premise 很直接:理解、生成、编辑不是三个任务,而是同一个视觉智能的三个侧面。 如果它们共享同一个认知核心,理解可以指导生成("知道场景结构才能画对"),生成可以反哺理解("换个角度画一遍,验证空间关系是否 consistent")。

这个双向循环才是"空间智能"的真正含义——不是多背几个几何公式,而是让模型在"看"和"画"之间建立持续的反馈回路。

二、架构:8B 大脑 + 16B 画笔 + VAE 桥梁

JoyAI-Image 的架构设计很有工程直觉:

组件 规模 来源 角色
MLLM 8B Qwen3-VL-8B-Instruct 认知大脑:理解、解析、指令分解
VAE Wan-2.1-VAE 压缩桥梁:像素↔latent
MMDiT 16B 自研 生成引擎:去噪、合成、编辑

三阶段流水线:

  1. 理解:MLLM 解析用户输入(文本/图像/指令),提取语义-空间线索
  2. 编码:VAE 把原始图像压成 latent,保留高频细节(对小文字渲染至关重要)
  3. 生成:MMDiT 双路架构,深度融合 MLLM 的语义条件和 VAE 的视觉特征,迭代去噪

MLLM 不是只在理解任务里工作。在生成和编辑时,它提取最后一层 hidden states 作为 MMDiT 的 primary conditioning signal。这意味着生成过程全程受"理解"指导,而不是只靠文本 embedding 硬推。

训练也是递进式的:先 fine-tune MLLM 的空间理解,再从头训练 MMDiT 的生成能力,最后联合优化编辑精度。

三、空间智能怎么"唤醒":数据引擎是核心武器

空间智能不是模型架构里加几个模块就能实现的。JoyAI-Image 的核心武器是 OpenSpatial——一个自动化数据引擎,从 3D box-centric 表示合成空间 QA 对。

3.1 OpenSpatial 的 3D Lifting 机制

传统空间数据依赖昂贵的 3D 扫描(LiDAR、多相机 rig)。OpenSpatial 的 trick 是:从野生网络视频中"升维"出 3D。

具体做法:

  • 输入:ScanNet/Matterport3D/ARKitScenes 等 3D 扫描数据 + 海量网络视频
  • 所有资产统一到规范坐标系
  • 获取场景级 3D 定向包围盒(OBB)
  • 通过投影、可见性过滤、mask 精化,蒸馏成帧级对象属性
  • 生成统一的 object-frame index:同步 3D/2D 框、实例 mask、部分点云、度量元数据

关键约束:多视图循环一致性。一个候选 3D 框只有在多个视角的投影都一致对齐实例 mask 时,才被验证通过。这保证了从 2D 视频"猜"出来的 3D 结构不是幻觉。

3.2 五大空间能力 + 19 个子任务

OpenSpatial-3M(300万条目)覆盖:

能力 子任务示例
空间测量 (SM) 距离估计、尺寸比较、深度估计
空间关系 (SR) "between"、"behind"、相对位置推理
相机感知 (CP) 相机运动方向、焦距判断
多视图一致性 (MC) 跨视角对象对应、视角变化下的身份保持
场景感知推理 (SAR) 3D 场景描述、布局推理

3.3 训练数据配比(11.3M 总量)

类别 数量 占比 作用
通用理解 6.1M 54.25% 保留 broad multimodal 能力
空间理解 3.4M 29.65% 核心:OpenSpatial 3.3M + VST 49.4K
指令增强 1.4M 11.98% 改写低熵描述为高密度指令
空间编辑 137.4K 1.21% 空间指令到视觉转换的映射
其他 328.1K 2.89% 京东内部长尾数据

注意配比不是均匀的。空间理解占近30%,但通用理解仍占过半——防止过拟合到空间任务而丢失 generalist 能力。

3.4 Decoupled 学习率 + 选择性蒸馏

  • Vision Encoder 学习率更小(5e-6 vs 5e-5),保留预训练视觉表示
  • KL 蒸馏只用于通用数据,空间数据不加约束:因为基模型本身空间能力弱,强蒸馏会阻碍新空间知识的获取
  • 动态序列打包:Flash Attention 变长接口,短序列打包减少 padding 浪费

四、实验结果:空间理解追平 Gemini-2.5-Pro,长文本渲染 SOTA

4.1 空间理解(13 个 benchmark)

模型 Spa.Avg 对比
Gemini-2.5-Pro 64.4 闭源最强
JoyAI-Image-Und (Ours) 64.4 追平 Gemini
Qwen3-VL-8B (基线) 59.1 +5.3 ↑
GPT-4o 57.7 被超越
MiMo-VL-7B 58.2 被超越

关键:在 VSI-Bench(4D 时空推理)和 AllAnglesBench(极端视角变化)上分别取得 60.1 和 61.0,这两个是最难的 4D 任务。BLINK(低层几何线索)从 49.5 跳到 61.0(+11.5),说明模型真正学会了"看深度、看大小"。

同时,通用 benchmark 如 MMBench、MMStar、OCRB 保持 competitive,没有牺牲 generalist 能力。

4.2 文生图(LongText-Bench 碾压)

模型 LongText-EN LongText-ZH
JoyAI-Image 0.963 0.963
GPT Image 1 (High) 0.956 0.619
Qwen-Image 0.943 0.946
Z-Image 0.935 0.936
Seedream 3.0 0.896 0.878

长文本渲染是工业级痛点。JoyAI-Image 的中英双语都是 0.963,而 GPT Image 1 中文只有 0.619——差距巨大。这得益于 OCR-aware captioning 和文本渲染专用 SFT 数据。

CVTG-2K(复杂视觉文本生成)上 Word Accuracy 0.8739,也是 SOTA。

4.3 组合与推理(T2I-CoReBench)

模型 Composition Mean Reasoning Mean Overall
JoyAI-Image 94.2 55.9 68.7
GPT Image 1 (High) 79.8 69.0 72.6
Qwen-Image 83.7 51.7 62.4

Composition(布局/结构/关系/文本)碾压所有对手,说明"理解驱动生成"在复杂组合场景优势明显。Reasoning(逻辑/计数/空间等)略逊于 GPT Image 1,但仍 competitive。

4.4 图像编辑:空间编辑准确率 +74.7%

SpatialEdit-Bench 上,空间编辑准确率相比基线提升 74.7%。这是用户消息中提到的数字。

编辑数据引擎分三类:

  • 通用编辑:开源数据 + 专家模型蒸馏 + 文本编辑 + 多图编辑
  • 开放域编辑:自然场景变化
  • 空间编辑:静态相机对象变换 + 动态相机视角变换,统一空间监督

五、关键工程细节:数据 pipeline 的五个模块

JoyAI-Image 的数据 pipeline 设计值得单独拎出来讲,因为它不是"拿一堆图丢进去训练"那么简单:

5.1 五级过滤( progressively tightened)

阶段 分辨率 最低分辨率 美学分数 IQA 保留率
Stage 1 208p >128 ≥3.0 N/A
Stage 2 512p >256 ≥4.6 34%
Stage 3 1024p >512 ≥4.6 20%

IQA 用自研 cascaded 决策:亮度/熵/饱和度/锐度(统计)+ NIQE/CLIP-IQA/MUSIQ(感知)。人类验证准确率 90%。

5.2 四级 Captioning

  • Short:1-2句,模仿真实用户 prompt 分布
  • Long:段落级,主体+对象+空间关系+背景+光照+风格+氛围
  • Extended Long:纹理、材质、空间布局、微妙细节
  • Structured:JSON,按维度标注(主体、背景、风格、构图、可见文本),支持灵活数据组合

OCR-aware:OCR 专用模型提取文本 token → 与视觉特征融合 → MLLM 生成 caption → 后过滤确保 OCR 全覆盖、内容一致、语言不翻译。

5.3 28.5 万标签的 Rebalancing

  • 长尾分布:2% 类别占 30%+ 频率,50% 类别 <100K
  • 尾部全保留,头部 inverse-logarithmic 降采样
  • 弱能力类别 +20~50% 采样 boost
  • 自适应多样性采样:taxonomy 树层级聚合,避免语义冗余

5.4 人工评分三维体系

维度 权重 5分标准
美学 50% 电影级/艺术品级,光影构图色彩harmony
信息密度 30% 主体+对象+环境+交互,纹理丰富
风格纯度 20% unmistakable 风格,零跨风格污染,无AI味

质量控制:5% sentinel 样本,90% 准确率门槛;日审 5%,低质量通过率 >5% 整批返工。

5.5 百万级多视图生成(Blender)

  • 主视图 + 辅助子视图,统一朝向物体中心
  • 射线投射剔除不可行相机位
  • 双 prompt 标注:dense caption(自然语言)+ structured JSON(机器可解析)

六、训练策略:从预训练到 RL 的四阶段

阶段 目标 关键设计
Pre-Training 建立基本生成能力 三分辨率渐进(208p→512p→1024p),Flow Matching
Continue Training 收窄分布、提升质量 高质量子集,降低分布熵
SFT 复杂文本渲染 + 多视图生成 任务导向小数据,人工标注
RL (Flow-GRPO) 美学 + 文本对齐 多奖励模型(美学 + 文本图像对齐),组相对优化

Flow-GRPO 的奖励函数:

  • 美学奖励模型:视觉质量
  • 文本-图像对齐奖励模型:语义一致性

七、应用前景:VLA 和世界模型的基石

论文在 Application 章节展示了两项下游能力:

  1. Thinking with Novel Views:用新视角辅助推理。比如"从这个新角度看,之前被遮挡的对象是什么?"
  2. Reconstruction with Novel Views:用多视图重建 3D 结构

这些正是 VLA (Vision-Language-Action) 模型和世界模型需要的核心能力。机器人要操作物理世界,必须先"看懂"空间关系;世界模型要预测未来状态,必须保持跨视角的一致性。JoyAI-Image 证明了统一视觉模型可以为这些下游任务提供坚实的基础。

八、开源贡献:不只是发论文

资源 状态 链接
论文 已发布 arXiv:2605.04128
代码 已开源 GitHub jd-opensource/JoyAI-Image
理解模型权重 已发布 Hugging Face
编辑模型权重 已发布 Hugging Face + ModelScope
OpenSpatial-3M 已发布 Hugging Face
SpatialEdit 数据集 已发布 Hugging Face
Diffusers 支持 已合并 2026.05.08
ComfyUI 支持 已发布 2026.04.10
蒸馏版 待发布
多图编辑版 待发布
文生图版 待发布

京东把模型、数据、训练 recipe、工具链全部开源,这在工业界是罕见的投入。

九、为什么这篇论文重要

  1. 统一架构验证:证明了 MLLM+MMDiT 的统一框架可以在理解、生成、编辑三个任务上同时达到 SOTA 或 near-SOTA,不是缝合怪
  2. 空间智能的工程路径:OpenSpatial 的 3D lifting + box-centric 范式提供了一条可扩展的空间数据生产路径,不依赖昂贵的 3D 扫描
  3. 双向循环的机制化:不只是理念,而是有具体训练策略(理解指导生成的 conditioning signal、生成反哺理解的 multi-view 数据)
  4. 工业级数据 pipeline:五级过滤、四级 caption、28.5 万标签 rebalancing、三维人工评分——这些工程细节才是复现的关键
  5. 为 VLA 和世界模型打地基:空间智能是具身智能的前提,JoyAI-Image 证明了统一视觉模型可以承载这个需求

十、局限

  • 推理阶段:16B MMDiT + 8B MLLM,推理成本不低
  • Reasoning 任务:T2I-CoReBench 的 reasoning 维度仍略逊于 GPT Image 1,说明纯空间增强对抽象逻辑推理的帮助有限
  • 文生图版尚未发布:目前只开源了理解模型和编辑模型,核心的文生图版"待发布"
  • 蒸馏版待发布:更快推理的版本还在路上

论文:JoyAI-Image: Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation. Lin Song et al., Joy Future Academy, JD. arXiv:2605.04128.

GitHubhttps://github.com/jd-opensource/JoyAI-Image

#空间智能 #京东 #JoyAI-Image #MLLM #MMDiT #多模态 #文生图 #图像编辑 #开源 #VLA #世界模型

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录