空间智能不是锦上添花,而是统一视觉模型的地基。京东 JoyAI-Image 用 8B 理解大脑 + 16B 生成引擎,把理解、生成、编辑拧成一股绳,证明了"看懂"和"画出"之间可以互相喂养。
一、为什么理解-生成-编辑必须是同一个模型
现有的多模态模型大致分两派:
- 理解派:MLLM 做 VQA、OCR、空间推理,但不会画图
- 生成派:扩散模型做文生图、图生图,但"不懂"自己在画什么
- 缝合派:理解模块和生成模块硬拼在一起,各干各的,协同极弱
JoyAI-Image 的 premise 很直接:理解、生成、编辑不是三个任务,而是同一个视觉智能的三个侧面。 如果它们共享同一个认知核心,理解可以指导生成("知道场景结构才能画对"),生成可以反哺理解("换个角度画一遍,验证空间关系是否 consistent")。
这个双向循环才是"空间智能"的真正含义——不是多背几个几何公式,而是让模型在"看"和"画"之间建立持续的反馈回路。
二、架构:8B 大脑 + 16B 画笔 + VAE 桥梁
JoyAI-Image 的架构设计很有工程直觉:
| 组件 | 规模 | 来源 | 角色 |
|---|---|---|---|
| MLLM | 8B | Qwen3-VL-8B-Instruct | 认知大脑:理解、解析、指令分解 |
| VAE | — | Wan-2.1-VAE | 压缩桥梁:像素↔latent |
| MMDiT | 16B | 自研 | 生成引擎:去噪、合成、编辑 |
三阶段流水线:
- 理解:MLLM 解析用户输入(文本/图像/指令),提取语义-空间线索
- 编码:VAE 把原始图像压成 latent,保留高频细节(对小文字渲染至关重要)
- 生成:MMDiT 双路架构,深度融合 MLLM 的语义条件和 VAE 的视觉特征,迭代去噪
MLLM 不是只在理解任务里工作。在生成和编辑时,它提取最后一层 hidden states 作为 MMDiT 的 primary conditioning signal。这意味着生成过程全程受"理解"指导,而不是只靠文本 embedding 硬推。
训练也是递进式的:先 fine-tune MLLM 的空间理解,再从头训练 MMDiT 的生成能力,最后联合优化编辑精度。
三、空间智能怎么"唤醒":数据引擎是核心武器
空间智能不是模型架构里加几个模块就能实现的。JoyAI-Image 的核心武器是 OpenSpatial——一个自动化数据引擎,从 3D box-centric 表示合成空间 QA 对。
3.1 OpenSpatial 的 3D Lifting 机制
传统空间数据依赖昂贵的 3D 扫描(LiDAR、多相机 rig)。OpenSpatial 的 trick 是:从野生网络视频中"升维"出 3D。
具体做法:
- 输入:ScanNet/Matterport3D/ARKitScenes 等 3D 扫描数据 + 海量网络视频
- 所有资产统一到规范坐标系
- 获取场景级 3D 定向包围盒(OBB)
- 通过投影、可见性过滤、mask 精化,蒸馏成帧级对象属性
- 生成统一的 object-frame index:同步 3D/2D 框、实例 mask、部分点云、度量元数据
关键约束:多视图循环一致性。一个候选 3D 框只有在多个视角的投影都一致对齐实例 mask 时,才被验证通过。这保证了从 2D 视频"猜"出来的 3D 结构不是幻觉。
3.2 五大空间能力 + 19 个子任务
OpenSpatial-3M(300万条目)覆盖:
| 能力 | 子任务示例 |
|---|---|
| 空间测量 (SM) | 距离估计、尺寸比较、深度估计 |
| 空间关系 (SR) | "between"、"behind"、相对位置推理 |
| 相机感知 (CP) | 相机运动方向、焦距判断 |
| 多视图一致性 (MC) | 跨视角对象对应、视角变化下的身份保持 |
| 场景感知推理 (SAR) | 3D 场景描述、布局推理 |
3.3 训练数据配比(11.3M 总量)
| 类别 | 数量 | 占比 | 作用 |
|---|---|---|---|
| 通用理解 | 6.1M | 54.25% | 保留 broad multimodal 能力 |
| 空间理解 | 3.4M | 29.65% | 核心:OpenSpatial 3.3M + VST 49.4K |
| 指令增强 | 1.4M | 11.98% | 改写低熵描述为高密度指令 |
| 空间编辑 | 137.4K | 1.21% | 空间指令到视觉转换的映射 |
| 其他 | 328.1K | 2.89% | 京东内部长尾数据 |
注意配比不是均匀的。空间理解占近30%,但通用理解仍占过半——防止过拟合到空间任务而丢失 generalist 能力。
3.4 Decoupled 学习率 + 选择性蒸馏
- Vision Encoder 学习率更小(5e-6 vs 5e-5),保留预训练视觉表示
- KL 蒸馏只用于通用数据,空间数据不加约束:因为基模型本身空间能力弱,强蒸馏会阻碍新空间知识的获取
- 动态序列打包:Flash Attention 变长接口,短序列打包减少 padding 浪费
四、实验结果:空间理解追平 Gemini-2.5-Pro,长文本渲染 SOTA
4.1 空间理解(13 个 benchmark)
| 模型 | Spa.Avg | 对比 |
|---|---|---|
| Gemini-2.5-Pro | 64.4 | 闭源最强 |
| JoyAI-Image-Und (Ours) | 64.4 | 追平 Gemini |
| Qwen3-VL-8B (基线) | 59.1 | +5.3 ↑ |
| GPT-4o | 57.7 | 被超越 |
| MiMo-VL-7B | 58.2 | 被超越 |
关键:在 VSI-Bench(4D 时空推理)和 AllAnglesBench(极端视角变化)上分别取得 60.1 和 61.0,这两个是最难的 4D 任务。BLINK(低层几何线索)从 49.5 跳到 61.0(+11.5),说明模型真正学会了"看深度、看大小"。
同时,通用 benchmark 如 MMBench、MMStar、OCRB 保持 competitive,没有牺牲 generalist 能力。
4.2 文生图(LongText-Bench 碾压)
| 模型 | LongText-EN | LongText-ZH |
|---|---|---|
| JoyAI-Image | 0.963 | 0.963 |
| GPT Image 1 (High) | 0.956 | 0.619 |
| Qwen-Image | 0.943 | 0.946 |
| Z-Image | 0.935 | 0.936 |
| Seedream 3.0 | 0.896 | 0.878 |
长文本渲染是工业级痛点。JoyAI-Image 的中英双语都是 0.963,而 GPT Image 1 中文只有 0.619——差距巨大。这得益于 OCR-aware captioning 和文本渲染专用 SFT 数据。
CVTG-2K(复杂视觉文本生成)上 Word Accuracy 0.8739,也是 SOTA。
4.3 组合与推理(T2I-CoReBench)
| 模型 | Composition Mean | Reasoning Mean | Overall |
|---|---|---|---|
| JoyAI-Image | 94.2 | 55.9 | 68.7 |
| GPT Image 1 (High) | 79.8 | 69.0 | 72.6 |
| Qwen-Image | 83.7 | 51.7 | 62.4 |
Composition(布局/结构/关系/文本)碾压所有对手,说明"理解驱动生成"在复杂组合场景优势明显。Reasoning(逻辑/计数/空间等)略逊于 GPT Image 1,但仍 competitive。
4.4 图像编辑:空间编辑准确率 +74.7%
SpatialEdit-Bench 上,空间编辑准确率相比基线提升 74.7%。这是用户消息中提到的数字。
编辑数据引擎分三类:
- 通用编辑:开源数据 + 专家模型蒸馏 + 文本编辑 + 多图编辑
- 开放域编辑:自然场景变化
- 空间编辑:静态相机对象变换 + 动态相机视角变换,统一空间监督
五、关键工程细节:数据 pipeline 的五个模块
JoyAI-Image 的数据 pipeline 设计值得单独拎出来讲,因为它不是"拿一堆图丢进去训练"那么简单:
5.1 五级过滤( progressively tightened)
| 阶段 | 分辨率 | 最低分辨率 | 美学分数 | IQA 保留率 |
|---|---|---|---|---|
| Stage 1 | 208p | >128 | ≥3.0 | N/A |
| Stage 2 | 512p | >256 | ≥4.6 | 34% |
| Stage 3 | 1024p | >512 | ≥4.6 | 20% |
IQA 用自研 cascaded 决策:亮度/熵/饱和度/锐度(统计)+ NIQE/CLIP-IQA/MUSIQ(感知)。人类验证准确率 90%。
5.2 四级 Captioning
- Short:1-2句,模仿真实用户 prompt 分布
- Long:段落级,主体+对象+空间关系+背景+光照+风格+氛围
- Extended Long:纹理、材质、空间布局、微妙细节
- Structured:JSON,按维度标注(主体、背景、风格、构图、可见文本),支持灵活数据组合
OCR-aware:OCR 专用模型提取文本 token → 与视觉特征融合 → MLLM 生成 caption → 后过滤确保 OCR 全覆盖、内容一致、语言不翻译。
5.3 28.5 万标签的 Rebalancing
- 长尾分布:2% 类别占 30%+ 频率,50% 类别 <100K
- 尾部全保留,头部 inverse-logarithmic 降采样
- 弱能力类别 +20~50% 采样 boost
- 自适应多样性采样:taxonomy 树层级聚合,避免语义冗余
5.4 人工评分三维体系
| 维度 | 权重 | 5分标准 |
|---|---|---|
| 美学 | 50% | 电影级/艺术品级,光影构图色彩harmony |
| 信息密度 | 30% | 主体+对象+环境+交互,纹理丰富 |
| 风格纯度 | 20% | unmistakable 风格,零跨风格污染,无AI味 |
质量控制:5% sentinel 样本,90% 准确率门槛;日审 5%,低质量通过率 >5% 整批返工。
5.5 百万级多视图生成(Blender)
- 主视图 + 辅助子视图,统一朝向物体中心
- 射线投射剔除不可行相机位
- 双 prompt 标注:dense caption(自然语言)+ structured JSON(机器可解析)
六、训练策略:从预训练到 RL 的四阶段
| 阶段 | 目标 | 关键设计 |
|---|---|---|
| Pre-Training | 建立基本生成能力 | 三分辨率渐进(208p→512p→1024p),Flow Matching |
| Continue Training | 收窄分布、提升质量 | 高质量子集,降低分布熵 |
| SFT | 复杂文本渲染 + 多视图生成 | 任务导向小数据,人工标注 |
| RL (Flow-GRPO) | 美学 + 文本对齐 | 多奖励模型(美学 + 文本图像对齐),组相对优化 |
Flow-GRPO 的奖励函数:
- 美学奖励模型:视觉质量
- 文本-图像对齐奖励模型:语义一致性
七、应用前景:VLA 和世界模型的基石
论文在 Application 章节展示了两项下游能力:
- Thinking with Novel Views:用新视角辅助推理。比如"从这个新角度看,之前被遮挡的对象是什么?"
- Reconstruction with Novel Views:用多视图重建 3D 结构
这些正是 VLA (Vision-Language-Action) 模型和世界模型需要的核心能力。机器人要操作物理世界,必须先"看懂"空间关系;世界模型要预测未来状态,必须保持跨视角的一致性。JoyAI-Image 证明了统一视觉模型可以为这些下游任务提供坚实的基础。
八、开源贡献:不只是发论文
| 资源 | 状态 | 链接 |
|---|---|---|
| 论文 | 已发布 | arXiv:2605.04128 |
| 代码 | 已开源 | GitHub jd-opensource/JoyAI-Image |
| 理解模型权重 | 已发布 | Hugging Face |
| 编辑模型权重 | 已发布 | Hugging Face + ModelScope |
| OpenSpatial-3M | 已发布 | Hugging Face |
| SpatialEdit 数据集 | 已发布 | Hugging Face |
| Diffusers 支持 | 已合并 | 2026.05.08 |
| ComfyUI 支持 | 已发布 | 2026.04.10 |
| 蒸馏版 | 待发布 | — |
| 多图编辑版 | 待发布 | — |
| 文生图版 | 待发布 | — |
京东把模型、数据、训练 recipe、工具链全部开源,这在工业界是罕见的投入。
九、为什么这篇论文重要
- 统一架构验证:证明了 MLLM+MMDiT 的统一框架可以在理解、生成、编辑三个任务上同时达到 SOTA 或 near-SOTA,不是缝合怪
- 空间智能的工程路径:OpenSpatial 的 3D lifting + box-centric 范式提供了一条可扩展的空间数据生产路径,不依赖昂贵的 3D 扫描
- 双向循环的机制化:不只是理念,而是有具体训练策略(理解指导生成的 conditioning signal、生成反哺理解的 multi-view 数据)
- 工业级数据 pipeline:五级过滤、四级 caption、28.5 万标签 rebalancing、三维人工评分——这些工程细节才是复现的关键
- 为 VLA 和世界模型打地基:空间智能是具身智能的前提,JoyAI-Image 证明了统一视觉模型可以承载这个需求
十、局限
- 推理阶段:16B MMDiT + 8B MLLM,推理成本不低
- Reasoning 任务:T2I-CoReBench 的 reasoning 维度仍略逊于 GPT Image 1,说明纯空间增强对抽象逻辑推理的帮助有限
- 文生图版尚未发布:目前只开源了理解模型和编辑模型,核心的文生图版"待发布"
- 蒸馏版待发布:更快推理的版本还在路上
论文:JoyAI-Image: Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation. Lin Song et al., Joy Future Academy, JD. arXiv:2605.04128.
GitHub:https://github.com/jd-opensource/JoyAI-Image
#空间智能 #京东 #JoyAI-Image #MLLM #MMDiT #多模态 #文生图 #图像编辑 #开源 #VLA #世界模型
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。