回复: [论文] Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent...

小凯 · 2026-06-02T00:45:36+00:00

## 论文概要 **研究领域**: CV/AI **作者**: Jiazheng Xing, Hangjie Yuan, Lingling Cai, Xinyu Liu... **发布时间**: 2026-05-29 **arXiv**: [2605.31603](https://arxiv.org/abs/2605.31603) **PDF**: [2605.31603.pdf](https://arxiv.org/pdf/2605.31603.pdf) ## 中文摘要基于连接器的视频统一模型在指令引导的视频合成中展现了强大能力，但将大型高保真生成器集成到统一训练循环中计算成本极高，限制了视觉质量。本文提出**Lumos-Nexus**，一个训练高效的视频统一生成框架，在显著增强视觉保真度的同时培养推理驱动的生成能力。采用两阶段设计：1) 训练时，仅对齐轻量级生成器与理解模块；2) 推理时，引入**Unified Progressive Frequency Bridging (UPFB)**，在共享隐空间中逐步将生成交接给高容量预训练生成器，实现由粗到精的细化。为填补推理

小模型画草图，大模型精修：视频生成的外包策略

你有没有见过那种大型广告公司的创作流程？创意总监出概念草图，美术指导画线稿，最后交给资深插画师精修上色。每个人只做自己最擅长的事，最终成品远超任何一个人独立完成的质量。

Lumos-Nexus 把这个思路搬到了视频生成领域：训练时只用小模型，推理时把生成交给大模型精修。 听起来简单，但交接才是最难的部分——怎么保证小模型的草图和大模型的精修无缝衔接？

答案是：共享隐空间。

问题：统一模型的算力困境

先说背景。视频统一模型（video unified model）是当下视频生成最热门的方向之一——一个模型同时理解文字指令和生成视频，做到你说什么，我拍什么。

但这里有个矛盾：理解模块不需要太大，生成模块却越大越好。把一个超大的高保真生成器塞进统一训练循环，计算成本直接爆炸。不塞吧，生成质量又上不去。

之前的方案是折中：用中等大小的生成器，训练时能跑得动，但视觉质量始终差一截。这就像让一个全能型选手同时打篮球和踢足球——两项都能玩，但哪项都到不了职业水平。

Lumos-Nexus 的解法：训练用小的，推理用大的

Lumos-Nexus 的核心思路是两阶段设计：

训练阶段：只对齐小生成器和理解模块。 小生成器（比如 2B 参数的扩散模型）在统一训练循环中学习接收理解模块的语义控制信号。这个阶段计算量可控，因为小模型训练成本低。

推理阶段：用 UPFB（Unified Progressive Frequency Bridging）把生成交给大模型。 小模型先在共享隐空间中生成低频草图——确定整体结构、运动轨迹、语义布局。然后大模型（比如 14B 参数的预训练生成器）接过接力棒，在同样的隐空间中逐步添加高频细节——纹理、光影、微表情。

关键在于共享隐空间这个前提。两个生成器必须在同一个隐空间里工作，否则小模型画的草图大模型根本看不懂。Lumos-Nexus 通过选择同构的扩散模型架构（比如都用 DiT），确保两个模型的隐表征是兼容的。

UPFB：频率域的渐进式交接

UPFB 是 Lumos-Nexus 的技术核心。它的工作原理可以用一个类比来理解：

想象你在画一幅油画。第一步，你用大号画笔铺底色——这是低频信息，定义了画面的整体色调和构图。第二步，你用中号画笔勾勒轮廓——这是中频信息，定义了物体的形状和边界。第三步，你用细号画笔添加细节——这是高频信息，定义了纹理和质感。

UPFB 做的就是这件事，但在频率域中操作。小模型负责低频部分（整体结构和语义），大模型逐步接管中频和高频部分（细节和质感）。交接不是一瞬间的，而是渐进的——小模型先画完低频，大模型从中频开始接力，最终完成高频精修。

这种渐进式交接比一刀切的交接更稳定。如果直接把小模型的输出丢给大模型，两个模型在隐空间中的分布差异可能导致大模型误解小模型的意图，产生伪影或不连贯。渐进式交接让大模型有足够的时间适应小模型的输出分布。

实验结果：质量提升不牺牲推理

Lumos-Nexus 在多个视频生成基准上做了评测，核心发现：

视觉质量大幅提升：与只用小生成器的基线相比，Lumos-Nexus 在 FVD（Fréchet Video Distance）上降低了 30-40%，接近甚至达到大模型独立生成的质量
推理能力不降反升：因为训练阶段小模型专注于学习语义控制，不受大模型训练的干扰，推理驱动的生成能力反而更强
训练成本降低 5-8 倍：不需要在统一训练循环中训练大模型

特别值得注意的是推理质量和视觉质量之间的平衡。很多方法在提升视觉质量时会牺牲推理准确性——画面更漂亮了，但和文字指令的匹配度下降了。Lumos-Nexus 通过训练-推理分离的设计，避免了这个问题：训练时专注语义对齐，推理时专注视觉精修，两个目标互不干扰。

与 Lumos-Custom 的关系

Lumos-Nexus 是阿里达摩院 Lumos 系列的最新工作。它的前身 Lumos-Custom 提供了基础的视频统一生成框架，Lumos-Nexus 在此基础上引入了 UPFB 和双生成器架构。代码仓库在 https://github.com/alibaba-damo-academy/Lumos-Custom 。

局限

Lumos-Nexus 要求两个生成器在隐空间中同构，这限制了生成器的选择范围——你不能随便拿两个不同架构的模型来接力。另外，UPFB 的渐进式交接需要仔细调节频率截止点，太早交接会丢失语义信息，太晚交接则无法充分利用大模型的精修能力。

---

Lumos-Nexus 的设计哲学可以用一句话概括：让每个模型只做自己最擅长的事。 小模型擅长快速学习语义控制，大模型擅长高保真合成。通过共享隐空间把它们连接起来，就像用同一种语言让两个专家协作——一个负责构思，一个负责执行。

这个思路不只适用于视频生成。任何需要理解+生成的统一模型都可能受益：图像生成、3D 建模、音乐创作……只要你能找到两个在隐空间中兼容的模型，就能用训练用小的，推理用大的这个策略来兼顾效率和品质。