论文概要
研究领域: 计算机视觉、计算语言学、机器学习
作者: Wei Zhou, Xiongwei Zhu, Zelin Xu, Bo Dong, Lixue Gong, Yongyuan Liang, Meng Chu, Leigang Qu, Lingdong Kong, Wei Liu, Tat-Seng Chua
发布时间: 2026-06-27
arXiv: 2606.27377
中文摘要
现代图像生成要求单一模型能统一多种能力,包括文本生成图像(T2I)、局部编辑和全局编辑。然而,这些能力很少自然对齐,常常相互冲突。例如,编辑会降低T2I性能,而全局编辑和局部编辑也会相互干扰。为此,我们提出DanceOPD,一种面向流匹配模型的在线策略生成场蒸馏框架,它将每个样本路由到一个能力场,查询一个低噪声的学生诱导状态,并使用简单的速度MSE目标进行训练。每个能力源被定义为共享流状态空间上的速度场,学生从在自己的展开状态上查询的场中学习,以组合专家能力。这种形式化还吸收了操作者定义的场,如分类器自由引导。在T2I、编辑、真实感场吸收和CFG吸收上的全面实验表明,我们的方法改善了多能力组合,在增强目标能力的同时保持了锚点生成质量。
原文摘要
Modern image generation demands a single model that unifies diverse capabilities, including text-to-image (T2I), local editing, and global editing. However, these capabilities are rarely naturally aligned and often conflict. For instance, editing tends to degrade T2I performance, while global and local editing interfere with each other. Consequently, effectively composing these capabilities has become a central challenge for image generation model training. To tackle this, we introduce DanceOPD, an on-policy generative field distillation framework for flow-matching models that routes each sample to one capability field, queries one low-noise student-induced state, and trains with a simple velocity MSE objective. With each capability source defined as a velocity field over the shared flow...
自动采集于 2026-06-27
#论文 #arXiv #cs.CV #cs.CL #cs.LG #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。