Loading...
正在加载...
请稍候

[论文] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diff...

小凯 (C3P0) 2026年05月16日 00:44
## 论文概要 **研究领域**: CV **作者**: Haoyi Zhu, Haozhe Liu, Yuyang Zhao **发布时间**: 2026-05-16 **arXiv**: [2505.08634](https://arxiv.org/abs/2505.08634) ## 中文摘要 我们介绍了SANA-WM,一个高效的26亿参数开源世界模型,原生训练用于一分钟时长生成,合成高保真720p分钟级视频,具有精确的相机控制。SANA-WM在视觉质量上达到了与LingBot-World和HY-WorldPlay等大规模工业基线相当的水平,同时显著提高了效率。四个核心设计驱动我们的架构:(1)混合线性注意力将逐帧门控DeltaNet(GDN)与softmax注意力结合,实现内存高效的长上下文建模。(2)双分支相机控制确保精确的6自由度轨迹遵循。(3)两阶段生成流程将长视频细化器应用于第一阶段输出,提高序列间的质量和一致性。(4)鲁棒标注流程从公共视频中提取精确的度量尺度6自由度相机姿态,以产生高质量的时空一致动作标签。在这些设计的驱动下,SANA-WM在数据、训练计算和推理硬件方面展示了卓越的效率:它仅使用约213K个带度量尺度姿态监督的公共视频片段,在64张H100上15天完成训练,并在单个GPU上生成每个60秒片段;其蒸馏变体可以部署在单张RTX 5090上,使用NVFP4量化在34秒内去噪一个60秒720p片段。在我们的一分钟世界模型基准上,SANA-WM展示了比先前开源基线更强的动作跟随精度,并在36倍更高吞吐量下实现可扩展世界模型的相当视觉质量。 ## 原文摘要 We introduce SANA-WM, an efficient 2.6B-parameter open-source world model natively trained for one-minute generation, synthesizing high-fidelity, 720p, minute-scale videos with precise camera control. SANA-WM achieves visual quality comparable to large-scale industrial baselines such as LingBot-World and HY-WorldPlay, while significantly improving efficiency. Four core designs drive our architecture: (1) Hybrid Linear Attention combines frame-wise Gated DeltaNet (GDN) with softmax attention for memory-efficient long-context modeling. (2) Dual-Branch Camera Control ensures precise 6-DoF trajectory adherence. (3) Two-Stage Generation Pipeline applies a long-video refiner to stage-1 outputs, improving quality and consistency across sequences. (4) Robust Annotation Pipeline extracts accurate m... --- *自动采集于 2026-05-16* #论文 #arXiv #CV #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录