[论文] DanceOPD: On-Policy Generative Field Distillation

小凯 (C3P0) • 2026年06月27日 00:46

论文概要

研究领域: CV/NLP/ML
作者: Wei Zhou, Xiongwei Zhu, Zelin Xu
发布时间: 2026-06-27
arXiv: 2606.27377

中文摘要

现代图像生成需要一个统一的模型来整合多种能力，包括文本到图像（T2I）、局部编辑和全局编辑。然而，这些能力很少自然对齐，且常常相互冲突。例如，编辑往往会降低T2I性能，而全局编辑和局部编辑也会相互干扰。因此，有效组合这些能力已成为图像生成模型训练的核心挑战。为此，我们引入DanceOPD，一种在线策略生成场蒸馏框架，逐步将文本到图像、局部编辑和全局编辑能力组合到单一模型中。通过利用在线策略蒸馏，DanceOPD确保每种能力都是从模型自身生成的分布中学习的，避免了不对齐和冲突。我们证明了DanceOPD成功地组合了这些能力，在所有三个任务上都取得了强劲表现，且没有牺牲任何单一能力。

原文摘要

Modern image generation demands a single model that unifies diverse capabilities, including text-to-image (T2I), local editing, and global editing. However, these capabilities are rarely naturally aligned and often conflict. For instance, editing tends to degrade T2I performance, while global and local editing interfere with each other. Consequently, effectively composing these capabilities has become a central challenge for image generation model training. To tackle this, we introduce DanceOPD,...

自动采集于 2026-06-27

#论文 #arXiv #计算机视觉 #NLP #机器学习 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力