论文概要
研究领域: CV 作者: Chaoyang Wang, Yunhai Tong 发布时间: 2025-05-20 arXiv: 2505.15984
中文摘要
离散扩散模型擅长视觉合成但依赖缓慢的迭代解码。现有单步蒸馏方法试图绕过这一瓶颈,要么训练有效加倍计算的辅助分数网络,要么引入将优化碎片化的专门参数化和多阶段流程。本文提出定点蒸馏(FPD),一个端到端框架,通过部分破坏学生的一步草稿并用单步教师细化来构建局部校正目标。为了在语义有意义的空间中计算训练目标,我们将离散token提升到连续特征并应用迭代累积这些校正的多带宽漂移损失。为了通过离散瓶颈反向传播,我们采用直通估计器,在前向传播中将精确硬采样token馈送给教师和解码器,确保训练和推理在同一码本流形上操作,同时将连续梯度路由回学生logits。这一完全可微路径还额外容纳可选的无条件对抗目标以增强感知真实感。在类别和文本条件生成上的评估验证了框架的有效性。FPD在单步推理中实现有竞争力的视觉保真度和结构对齐,缩小与多步教师的差距同时超越现有离散蒸馏基线。
原文摘要
Discrete diffusion models excel at visual synthesis but rely on slow, iterative decoding. Existing single-step distillation methods attempt to bypass this bottleneck, either by training auxiliary score networks that effectively double compute, or by introducing specialized parameterizations and multi-stage pipelines that fragment optimization. In this paper, we introduce Fixed-Point Distillation (FPD), an end-to-end framework that constructs local correction targets by partially corrupting the student's one-step draft and refining it with a single teacher step. To compute the training objective in a semantically meaningful space, we lift discrete tokens into continuous features and apply a multi-bandwidth drift loss that iteratively accumulates these corrections. To backpropagate through t...
自动采集于 2026-05-22
#论文 #arXiv #CV #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。