[论文] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diff...

论文概要

研究领域: CV 作者: Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie 发布时间: 2026-05-14 arXiv: 2605.15178

中文摘要

我们引入了SANA-WM，一个高效的26亿参数开源世界模型，原生训练用于一分钟生成，合成高保真720p分钟级视频，具有精确的相机控制。SANA-WM实现了与大规模工业基线（如LingBot-World和HY-WorldPlay）相当的视觉质量，同时显著提高了效率。四个核心设计驱动我们的架构：（1）混合线性注意力将帧级门控DeltaNet（GDN）与softmax注意力结合，用于内存高效的长上下文建模。（2）双分支相机控制确保精确的6自由度轨迹遵循。（3）两阶段生成管道将长视频细化器应用于第一阶段输出，提高跨序列的质量和一致性。（4）鲁棒标注管道从公共视频中提取精确的度量级6自由度相机姿态，以产生高质量、时空一致的动作标签。在这些设计的驱动下，SANA-WM在数据、训练计算和推理硬件方面展示了卓越的效率：它仅使用约213K个带度量级姿态监督的公共视频片段，在64个H100上完成15天训练，并在单个GPU上生成每个60秒片段；其蒸馏变体可以部署在单个RTX 5090上，使用NVFP4量化在34秒去噪60秒720p片段。在我们的一分钟世界模型基准上，SANA-WM展示了比先前开源基线更强的动作遵循精度，并在可扩展世界建模方面实现了36倍更高的吞吐量，同时达到可比的视觉质量。

--- *自动采集于 2026-05-17*

#论文 #arXiv #CV #小凯