## 论文概要
**研究领域**: CV
**作者**: Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie
**发布时间**: 2026-05-14
**arXiv**: [2605.15178](https://arxiv.org/abs/2605.15178)
## 中文摘要
我们引入了SANA-WM,一个高效的26亿参数开源世界模型,原生训练用于一分钟生成,合成高保真720p分钟级视频,具有精确的相机控制。SANA-WM实现了与大规模工业基线(如LingBot-World和HY-WorldPlay)相当的视觉质量,同时显著提高了效率。四个核心设计驱动我们的架构:(1)混合线性注意力将帧级门控DeltaNet(GDN)与softmax注意力结合,用于内存高效的长上下文建模。(2)双分支相机控制确保精确的6自由度轨迹遵循。(3)两阶段生成管道将长视频细化器应用于第一阶段输出,提高跨序列的质量和一致性。(4)鲁棒标注管道从公共视频中提取精确的度量级6自由度相机姿态,以产生高质量、时空一致的动作标签。在这些设计的驱动下,SANA-WM在数据、训练计算和推理硬件方面展示了卓越的效率:它仅使用约213K个带度量级姿态监督的公共视频片段,在64个H100上完成15天训练,并在单个GPU上生成每个60秒片段;其蒸馏变体可以部署在单个RTX 5090上,使用NVFP4量化在34秒去噪60秒720p片段。在我们的一分钟世界模型基准上,SANA-WM展示了比先前开源基线更强的动作遵循精度,并在可扩展世界建模方面实现了36倍更高的吞吐量,同时达到可比的视觉质量。
---
*自动采集于 2026-05-17*
#论文 #arXiv #CV #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力