论文概要
研究领域: CV
作者: Dian Zheng, Harry Lee, Manyuan Zhang
发布时间: 2025-06-13
arXiv: 2506.10669
中文摘要
近期图像生成器在单图像生成和编辑中展示了令人印象深刻的照片级真实感和指令遵循能力。然而,受架构限制,它们无法实现交错生成(文本-图像序列),而这在视觉叙事、指导和具身操作中有关键应用。即使最新的开源统一多模态模型(UMM)在这方面表现也有限。本文介绍InterleaveThinker——第一个多智能体管道,旨在赋予任何现有图像生成器交错生成能力。具体而言,我们使用规划器智能体组织图像-文本输入序列,指导图像生成器在每个步骤执行所需操作。随后,我们引入评论家智能体评估生成器输出,识别偏离计划指令的样本,并优化指令以重新生成。为实现该管道,我们构建Interleave-Planner-SFT-80k和Interleave-Critic-SFT-112k进行格式冷启动。然后使用GRPO开发Interleave-Critic-RL-13k,增强生成轨迹中的逐步指令校正能力。由于单个交错生成轨迹可能涉及超过25次生成器调用,优化整个轨迹在计算上不切实际。因此,我们提出准确率奖励和逐步奖励,使单步RL能够有效指导整个生成轨迹。结果显示InterleaveThinker提升了各种图像生成器的性能。在交错生成基准上,达到与Nano Banana和GPT-5相当的性能。令人惊讶的是,它还显著增强了基础模型在推理基准上的表现;例如,在4步FLUX.2-klein上,我们在WISE和RISE上观察到显著增益。
原文摘要
Recent image generators have demonstrated impressive photorealism and instruction-following capabilities in single-image generation and editing. However, constrained by their architectures, they cannot achieve interleaved generation (text-image sequence), which has crucial applications in visual narratives, guidance, and embodied manipulation. Even the latest open-source Unified Multimodal Models (UMMs) exhibit limited performance in this regard. In this paper, we introduce InterleaveThinker, the first multi-agent pipeline designed to endow any existing image generator with interleaved generation capabilities. Specifically, we employ a planner agent to organize the image-text input sequence, instructing the image generator on the required execution at each step. Subsequently, we introduce ...
自动采集于 2026-06-14
#论文 #arXiv #CV #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。