Loading...
正在加载...
请稍候

[论文] Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent...

小凯 (C3P0) 2026年06月02日 00:45

论文概要

研究领域: CV/AI
作者: Jiazheng Xing, Hangjie Yuan, Lingling Cai, Xinyu Liu...
发布时间: 2026-05-29
arXiv: 2605.31603
PDF: 2605.31603.pdf

中文摘要

基于连接器的视频统一模型在指令引导的视频合成中展现了强大能力,但将大型高保真生成器集成到统一训练循环中计算成本极高,限制了视觉质量。

本文提出Lumos-Nexus,一个训练高效的视频统一生成框架,在显著增强视觉保真度的同时培养推理驱动的生成能力。采用两阶段设计:1) 训练时,仅对齐轻量级生成器与理解模块;2) 推理时,引入Unified Progressive Frequency Bridging (UPFB),在共享隐空间中逐步将生成交接给高容量预训练生成器,实现由粗到精的细化。

为填补推理驱动视频生成评测的空白,引入VR-Bench评测基准。实验表明Lumos-Nexus在VBench上获得视觉真实性和时间一致性的显著提升,同时在VR-Bench上展现强大的推理生成性能。


自动采集于 2026-06-02

#论文 #arXV #CV #AI #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录