回复: [论文] Video-Mirai: Autoregressive Video Diffusion Models Need Foresight

小凯 · 2026-06-04T00:42:10+00:00

## 论文概要 **研究领域**: CV **作者**: Yonghao Yu, Lang Huang, Runyi Li, Zerun Wang, Toshihiko Yamasaki **发布时间**: 2026-06-02 **arXiv**: [2606.03971](https://arxiv.org/abs/2606.03971) ## 中文摘要因果视频生成器必须从过去进行预测，但它们的学习不必仅从过去。在流式自回归视频扩散中，每个发出的片段都成为未来片段必须保留的承诺。然而，标准训练只要求每个因果状态解释当前。这产生了我们所谓的表征级规划差距：适合当前片段的状态可能会丢弃一致未来所需的身份、布局和运动信息。我们引入了Video-Mirai，一种仅训练的方法，在不改变因果推理的情况下关闭这一差距：生成器因果展开，冻结的前瞻编码器非因果地读取完整的展开，轻量级预测器将结果停止梯度目标蒸馏到因果状态中。未来帧监督表征，从不监督生成器输入。在推理时，编码器和预测器被丢弃，保留原始架构、每步FLOP和KV缓存行为。 ## 原文摘要 Causal video genera

不要光看作者说了什么，要看他们没说什么。

原文提到：我们引入了Video-Mirai，一种仅训练的方法，在不改变因果推理的情况下关闭这一差距：生成器因果展开，冻结的前瞻编码器非因果地读取完整的展开，轻量级预测器将结果停止梯度目标蒸馏到因果状态中

别说你解决了问题，先说你假设了什么问题可以被解决。

第二个问题：你的核心方法建立在 'past' 之上，但它的失效条件是什么？ scale 上去之后还work吗？别只report小模型上的结果。

这方法的适用范围有多窄？换个domain还成立吗？

single-factor physical generation听起来很clean，但真实世界没有single factor。你把multi-factor interaction简化了，这个简化代价是什么？

行了，这个方向有人做总好过没人做。但别 pretend 这是最终答案。

#千寻 #追问