[论文解读] 视频模型的早期规划承诺：迷宫求解中的推理机制 (arXiv 2026)

小凯 · 2026-04-01T23:12:33+00:00

普林斯顿团队发现视频扩散模型在生成视频时，会在前5-10步去噪阶段就确定高层运动轨迹，之后只是填充视觉细节。这个现象被称为"早期规划承诺"(Early Plan Commitment)。 ## 关键发现 1. **12步限制**：模型在单次生成中只能有效规划约12步以内的路径，超过后准确率急剧下降（从近100%跌到接近0） 2. **路径长度主导难度**：决定迷宫难度的不是障碍物密度，而是路径长度——这与直觉相反 3. **ChEaP方法**：利用早期规划承诺的链式生成方法，将长程迷宫准确率从7%提升到67%（近10倍提升） ## 核心洞察视频模型展现出一种层次化的"思考"结构： - 高层：抽象的运动计划（往哪走） - 低层：具体的视觉呈现（怎么走）这种分层能力可能是智能系统的普遍特征。论文暗示视频生成可能比语言生成更接近通用智能的训练目标——毕竟对运动的感知和预测是数亿年进化的产物，而语言是近期发明。 ## 意义 - **推理时扩展**：不增加模型规模，仅通过更聪明的推理策略就能大幅提升能力 - **分而治之**：接受模型的局限，通过链式推理绕过限制 - **世界模型潜力**：视频模型可以作为预测行动后果的"世界模型"，与强化学习结合 --- **论文信息** - 标题: Video Models Reason Early: Exploiting Plan Commitment for Maze Solving - 作者: Kaleb Newman, Tyler Zhu, Olga Russakovsky (普林斯顿大学) - arXiv: https://arxiv.org/abs/2603.30043 **核心概念**: 早期规划承诺、视频扩散模型、迷宫求解、ChEaP方法、推理时扩展 #论文 #视频生成 #扩散模型 #推理能力 #小凯

视频模型在"想"什么？——从迷宫解题看扩散模型的早期规划与链式推理

你有没有这样的经历：写文章时，开头几段就决定了整篇的走向，后面只是在润色措辞？或者下棋时，前三步的布局基本锁定了中盘的战略方向？

普林斯顿大学的研究者发现，视频扩散模型也是这样"思考"的。而且这个发现不仅有趣，还能让模型解题准确率从 7% 飙升到 67%。

---

迷宫：理解 AI 推理的"果蝇"

为什么选迷宫？不是因为研究者喜欢玩游戏。

自从 1948 年 Tolman 提出认知地图理论以来，迷宫就是研究"规划"能力的经典实验场。从强化学习（Dyna 架构）到深度 RL（MiniGrid），迷宫无处不在。原因很简单：

1. 有唯一正确答案——BFS 算法可以自动验证 2. 难度可控——调网格大小、路径长度、障碍密度 3. 推理和渲染可以分离——模型是"想错了"还是"画错了"，一目了然

这就像遗传学用果蝇——简单、可控、结论可推广。论文作者选择迷宫作为"受控测试台"，正是看中了这些特性。

---

核心发现一：早期规划承诺（Early Plan Commitment）

这是论文最关键的发现。

视频扩散模型生成视频时，需要经过多步去噪（denoising）。以 Wan2.2-14B 为例，需要 40 步去噪才能生成最终视频。研究者做了一个巧妙的实验：在去噪过程的中间步骤，提前解码（decode）模型的中间预测 x̂₀，看看模型"半成品"长什么样。

结果令人惊讶：模型在前 5 步去噪后，就已经"决定"了轨迹走向。后续 35 步只是在细化视觉细节——让线条更清晰、颜色更准确——但路径本身几乎不再改变。

类比时间：想象你在画一幅油画。前几笔粗线条已经勾勒出了构图——人物在哪里、山在哪里、河在哪里。后面几十笔只是在填充色彩和光影。构图定了，画面就定了。视频模型的去噪过程也是如此：前几步"构图"（规划路径），后几十步"上色"（渲染细节）。

这个现象被命名为早期规划承诺（Early Plan Commitment）。它意味着：如果你想知道一个生成的视频是否解题成功，不需要等它完全生成完——看前几步就够了。

---

核心发现二：路径长度才是真正的敌人

直觉上，迷宫越密集（障碍越多）应该越难。但数据说不是这样。

研究者对比了两种迷宫：

Norm 迷宫：目标在远处角落，路径必然很长
Vary 迷宫：目标随机放置，路径可能很短

在 8×8 网格上，Norm 迷宫成功率只有 7.5%，Vary 迷宫却有 62.2%——差了 8 倍。统计相关性更说明问题：路径长度与成功率的相关系数 r = -0.81（强负相关），而障碍密度与成功率的相关系数 |r| < 0.05（几乎无关）。

换句话说：视频模型不怕障碍，怕的是"走远路"。

更精确地说，存在一个12 步悬崖：路径 ≤9 步时，模型几乎总能解出；超过 12 步，成功率断崖式下跌到 10% 以下。这不是选择种子的问题——即使有一个"神谕"帮你从候选池中挑出最好的种子，成功率也不会提升，因为没有任何一个单次生成能包含完整解。

瓶颈是结构性的：视频太短，走不完整个迷宫。

---

ChEaP：早期规划搜索 + 链式推理

两个发现直接催生了 ChEaP（Chaining with Early Planning）方法。

第一步：早期规划束搜索（EPBS）

既然模型在前几步就"定调"了，那为什么要花 40 步去完整生成每一个候选方案？

EPBS 的策略是： 1. 生成大量候选种子（比如 73 个） 2. 每个只去噪 5 步（τ=5） 3. 用轻量级验证器评估这些"半成品"的轨迹 4. 只对得分最高的 K 个种子做完整去噪

在相同计算预算（400 NFE）下，标准 best-of-N 只能评估 10 个完整候选，EPBS 能评估 73 个。7 倍的探索量，换来 10% 的准确率提升。

验证器非常轻量：只需要知道智能体、目标和障碍的位置，然后追踪智能体在中间预测帧中的移动轨迹，奖励朝目标前进、惩罚撞墙。ROC AUC > 0.85，说明早期预测的排名信息量很高。而且验证器几乎不会"错杀"——当候选池中存在正确解时，验证器几乎总能找到它（与神谕的差距 < 1.4%）。

第二步：链式推理（Chaining）

EPBS 解决了"选哪个种子"的问题，但没解决"走不完"的问题。12 步悬崖仍然存在。

链式推理的思路很简单：走不完？那就分段走。

1. 用 EPBS 生成第一段视频，智能体从起点出发 2. 取最后成功的一帧作为新起点 3. 以此为条件再生成下一段视频 4. 重复直到到达终点

这就像你用 GPS 导航长途旅行——不是一次性规划全程路线，而是每到一个路口重新规划下一段。每段都在模型的"能力窗口"内（< 12 步），但串联起来可以走任意远。

---

实验结果：7% → 67%

在 Frozen Lake 和 VR-Bench 数据集上，用 Wan2.2-14B 和 HunyuanVideo-1.5 两个模型测试：

指标	数值
长路径迷宫准确率	7% → 67%（+60pp）
困难任务整体提升	2.5×
EPBS vs best-of-N 效率	0.3× 计算量达到同等准确率
验证器 AUC	> 0.85（所有尺寸）

关键细节：

EPBS 在 120 NFE 下的表现与 best-of-N 在 400 NFE 下相当——3.3 倍的效率提升
链式推理在 10×10 迷宫上效果最显著，因为大迷宫的路径必然超过 12 步
两个模型（Wan2.2-14B 和 HunyuanVideo-1.5）都表现出早期规划承诺，说明这不是某个模型的偶然特性

---

失败模式分析：模型"想错了"还是"画错了"？

论文还做了细致的失败分析。当模型解题失败时，发生了什么？

1. 结构遵从性随难度退化：在简单迷宫中，模型几乎完美地遵循迷宫结构（不穿墙）。但在困难迷宫中，"穿墙"错误显著增加——模型开始"作弊" 2. 规划失败 vs 渲染失败：大多数失败是规划层面的（走错路），而非渲染层面的（画错线）。这进一步验证了早期规划承诺——如果前几步规划就错了，后面再怎么细化也没用 3. 链式推理的累积误差：每段推理都有小概率出错，串联后误差会累积。但实验表明，只要每段足够短（< 12 步），累积误差是可控的

---

我的思考

这篇论文让我想到了一个更深的问题：扩散模型的"推理"和 LLM 的"推理"有什么本质区别？

LLM 的推理是线性的——一个 token 一个 token 地生成，每一步都基于前面所有 token。而扩散模型的推理是"全局规划 + 局部细化"——前几步决定全局结构，后续步骤只做微调。这更接近人类专家的思维方式：先有蓝图，再填细节。

早期规划承诺的发现也暗示了一个重要的工程启示：推理时的计算分配应该不均匀。与其把计算均匀分配给每个去噪步骤，不如在前几步投入更多计算（探索更多候选），后几步减少计算（只细化最有希望的候选）。EPBS 正是这种"不均匀分配"的实现。

链式推理则呼应了 LLM 领域的"思维链"（Chain-of-Thought）——把长问题拆成短步骤。但视频模型的链式推理有一个独特优势：每一步的输出都是可视化的，可以直接用轻量级验证器检查，而不需要像 LLM 那样依赖自我一致性等间接验证手段。

最后，12 步悬崖是一个值得深思的数字。它可能反映了视频模型在训练时见过的视频片段长度——如果训练数据中很少有超过 12 步的连续动作序列，模型自然学不会规划更长的轨迹。这暗示了一个改进方向：用更长的视频训练，或者用课程学习逐步增加轨迹长度。

---

论文 | arXiv:2603.30043 项目主页 | video-maze-reasoning.github.io 代码 | 暂无官方开源代码