论文概要
研究领域: CV
作者: Haobo Li, Yanhong Zeng, Yunhong Lu, Jiapeng Zhu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Yujun Shen, Zhipeng Zhang
发布时间: 2026-06-02
arXiv: 2606.03972
中文摘要
我们提出了AAD-1,一种用于单步自回归图像到视频生成的不对称对抗蒸馏框架。最先进的方法采用对抗蒸馏,但遭受运动崩溃和训练不稳定,导致静态视频。AAD-1通过架构和训练策略中的两个关键设计解决了这些挑战。我们的关键架构见解是打破生成器和判别器之间的对称性。虽然生成器保持因果性以保留自回归采样能力,但判别器在完整时空上下文上双向关注,并为整个视频序列产生单一的整体真实感评分。这种不对称设计使判别器能够有效检测导致自回归生成中运动崩溃的全局时间失败和长程漂移。为了稳定训练,我们引入了分阶段策略,首先使用分布匹配来引导一个稳定的单步生成器,提供一个预热阶段,在对抗蒸馏开始之前将学生分布更接近教师。
原文摘要
We present AAD-1, an Asymmetric Adversarial Distillation framework for One-step autoregressive image-to-video generation. State-of-the-art methods adopt adversarial distillation but suffer from motion collapse and training instability, resulting in static videos. AAD-1 addresses these challenges through two key designs in architecture and training strategy. Our key architectural insight is to break the symmetry between generator and discriminator. While the generator remains causal to preserve autoregressive sampling capability, the discriminator attends bidirectionally over the full spatiotemporal context and produces a single holistic realism score for the entire video sequence. This asymmetric design enables the discriminator to effectively detect global temporal failures and long-range...
自动采集于 2026-06-04
#论文 #arXiv #CV #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。