论文概要
研究领域: CV 作者: Dian Zheng, Manyuan Zhang, Hongyu Li 发布时间: 2025-05-20 arXiv: 2505.15987
中文摘要
目前,增强统一多模态模型(UMMs)的图像理解、生成和编辑能力主要依赖混合多任务训练。由于固有的任务冲突,这种策略需要复杂的多阶段流程、大量数据混合和平衡技巧,仅导致性能权衡而非真正的相互增强。为打破这一范式,我们提出Uni-Edit,一个智能图像编辑任务,作为UMM微调的首个通用任务。与复杂混合流程不同,Uni-Edit仅使用一个任务、一个训练阶段和一个数据集就能同时提升三种能力。具体而言,我们首先将图像编辑识别为本质理想的通用任务,因为它自然需要视觉理解和生成。然而,现有编辑数据依赖过于简单的指令,严重未充分利用模型的理解能力。为此,我们引入首个自动化且可扩展的智能编辑数据合成流程,将多样化VQA数据转换为嵌入问题和嵌套逻辑的复杂有效编辑指令。这产生Uni-Edit-148k,将多样化推理密集型指令与高质量编辑图像配对。在BAGEL和Janus-Pro上的大量实验表明,仅在Uni-Edit上微调即可无需任何辅助操作实现三种能力的全面提升。
原文摘要
Currently, enhancing Unified Multimodal Models (UMMs) with image understanding, generation, and editing capabilities mainly relies on mixed multi-task training. Due to inherent task conflicts, such strategy requires complex multi-stage pipelines, massive data mixing, and balancing tricks, merely resulting in a performance trade-off rather than true mutual reinforcement. To break this paradigm, we propose Uni-Edit, an intelligent image editing task that serves as the first general task for UMM tuning. Unlike complex mixed pipelines, Uni-Edit improves performance across all three abilities at once using only one task, one training stage, and one dataset. Specifically, we first identify image editing as an inherently ideal general task, as it naturally demands both visual understanding and ge...
自动采集于 2026-05-22
#论文 #arXiv #CV #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。