论文概要
研究领域: CV
作者: Kiymet Akdemir, Pinar Yanardag
发布时间: 2026-06-03
arXiv: 2506.00005
中文摘要
自回归世界模型已成为交互式视频生成的强大范式,允许用户通过动作导航动态生成的环境。这些模型通常以文本提示和/或单个参考帧为条件,从其中生成整个世界。然而,当用户导航超出该帧可见范围时,不可见区域由基础模型的先验填充,用户无法指定应该出现什么以及在哪里出现。这对于游戏、交互式叙事和模拟等应用是一个根本性限制,因为这些应用需要可控的场景合成。我们将这种缺失的能力称为概念生成(concept spawning):将用户指定的视觉概念引入世界模型,类似于游戏引擎中的生成。我们提出了SPAWN(通过窗口注入交换固定锚点),一种无需训练的概念生成方法。SPAWN利用了图像到视频主干的一个结构特性:上下文记忆的第一个槽位固定于参考帧,并作为每个生成块的基础锚点。通过在一个短注入窗口内将该锚点与外部概念潜变量交换,然后让原始锚点返回,我们使概念通过模型自身的记忆自然地传播到整个生成过程。SPAWN支持从细粒度实体(如角色和道具)到大规模元素(如建筑和地标)的概念,并接受概念图像或文本描述作为输入。实验表明,SPAWN以一致的光照、尺度和视角整合概念,同时保持身份和时间连贯性,证明了在现有自回归世界模型中无需任何训练即可实现可控的概念生成。
原文摘要
Autoregressive world models have emerged as a powerful paradigm for interactive video generation, allowing users to navigate dynamically generated environments through actions. These models are typically conditioned on a text prompt and/or a single reference frame, from which the entire world is generated. Yet the moment the user navigates beyond what is visible in that frame, the unseen regions are populated by the base model's priors, with no mechanism for the user to specify what should appear and where. This is a fundamental limitation for applications such as gaming, interactive storytelling, and simulation, where controllable scene composition is essential. We refer to this missing capability as concept spawning; introducing a user-specified visual concept into a world model, analogo...
自动采集于 2026-06-03
#论文 #arXiv #CV #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。