世界模型 vs 语言模型：谁该说了算？

大语言模型擅长抽象推理，世界模型擅长视觉仿真。直觉上把它们拼在一起应该更强——让语言模型写prompt，世界模型生成视频，然后语言模型从视频里找答案。

但论文作者发现，这种 naive 的结合有两个致命缺陷：

模拟惰性：模型明明需要仿真，却懒得调用，还是靠语言瞎猜
强制模拟悖论：强迫模型用仿真，结果反而被错误视频带偏，准确率更低

这引出了一个核心问题：不是"要不要用世界模型"，而是"什么时候该信它"。

---

一、模拟惰性：模型就是不想用眼睛

实验设置很简单：给模型一个问题，世界模型可用可不用，让模型自己决定。

结果触目惊心：

Gemini-3-Flash：96% 的题不调用世界模型
Qwen3.5-9B：98% 的题不调用世界模型

即使提示明确说"对复杂空间推理建议使用模拟"，模型还是几乎不用。它宁愿在语言层面做抽象推理，也不愿意生成一段视频来看看到底发生了什么。

这很像人类行为：有时候你明明可以查一下地图，但宁愿凭印象瞎猜。但模型的"惰性"更严重——它不是"懒"，而是没有学会把视觉仿真纳入决策流程。语言模型的训练目标是预测下一个token，这个优化目标天然偏向快速抽象推理，而不是慢速视觉模拟。

---

二、强制模拟悖论：信了不该信的

好，既然模型不愿意用，那就强制它用——每道题都配一段世界模型生成的视频。

表面上，准确率确实提升了：

VRQABench：33.2% → 39.8%（+6.6%）
OpenWorldQA：32.6% → 38.6%（+6.0%）

但论文指出这是虚假的进步。模型并不是"学会了用仿真"，而是无条件接受了仿真结果。当世界模型生成的视频"看起来合理但答案错误"时，模型也跟着错。

举个例子：问"球滚下斜坡后会往哪边飞？"世界模型生成了球往左飞的视频（因为某个物理参数设置错了）。模型看了视频，说"往左飞"。但正确答案是往右飞。模型没有验证视频的可靠性，直接把视频里的结果当成了答案。

这就是悖论：强制模拟虽然整体数字上升，但上升的来源是盲目信任，而不是批判性使用。当rollout出错时，模型比不用模拟时错得更离谱。

---

三、可控具体推理：让模型学会"挑着用"

论文提出的框架叫 Controlled Concrete Reasoning，核心是一个五步决策流程：

步骤	决策	含义
1	是否调用世界模型？	基于问题和初始状态判断是否需要仿真
2	生成模拟 prompt	如果需要，写一段提示让世界模型生成视频
3	验证 rollout 可靠性	看世界模型生成的视频是否可信、是否一致
4	决定依赖程度	完全信任 / 部分参考 / 忽略回退到抽象推理
5	输出答案	综合仿真和推理，给出最终答案

关键不是"用不用"，而是每一步都是可学习的决策点。模型要学会：什么时候需要模拟（而不是抽象推理就够了），怎么验证模拟结果（而不是无脑接受），以及在模拟不可靠时怎么回退到抽象推理。

---

四、PF-OPSD：用"未来真相"教模型做判断

训练框架叫 Privileged-Future On-Policy Self-Distillation（PF-OPSD），名字很长，但核心思想很简洁：

训练时：老师模型（特权评估器）可以看到真实未来视频和正确答案。它评估学生模型生成的"推理轨迹"（包括是否调用模拟、模拟了什么、怎么验证），给每个决策打分。
测试时：学生模型看不到真实未来，必须自己判断每一步。

这是一种自蒸馏——学生模型从自己生成的轨迹中学习，但老师的反馈来自真实未来。这让学生模型学会"在没有未来信息的情况下，做出对未来最有利的决策"。

效果：

VRQABench：+10.6%
OpenWorldQA：+10.9%

而且更关键的是：对噪声和冲突 rollout 的鲁棒性显著增强。模型不再无条件信任模拟，而是学会了"挑着用"。

---

五、两个新基准：VRQABench 和 OpenWorldQA

论文做了两个基准测试，都是未来预测任务：

VRQABench（4636 题）：空间规划推理，结构化谜题。比如：一个迷宫里有几个球，给定初始位置，预测几秒后某个球在哪里。特点是环境可控、规则明确，适合测试"可控具体推理"。

OpenWorldQA（4404 题）：真实世界物理预测，开放自然场景。比如：给一张户外照片，预测几分钟后云朵的位置、或者球滚下草坡后的轨迹。特点是环境复杂、不确定性高，适合测试"在真实噪声下的鲁棒性"。

两个基准都只给模型初始状态的一张图，要求预测未来。这排除了"模型看到多帧直接猜"的作弊可能，强迫模型真正进行推理或仿真。

所有样本经过人工验证，质量可控。

---

六、这个工作的深层意义

这篇论文的价值不只是"提出一个新方法涨了10个点"。它揭示了一个更深层的问题：多模态融合不是简单拼接，而是需要决策仲裁。

过去的主流思路是： 1. 语言模型 + 视觉编码器 → 看得见的语言模型 2. 语言模型 + 世界模型 → 能仿真的语言模型

但这篇论文指出，真正的问题不是"给不给模型看"，而是模型看不看、信不信、用多少。这是一个元认知问题——模型需要对自己的推理过程进行监控和调节。

如果把这条思路延伸，类似的"可控X推理"可以出现在很多场景：

可控工具使用（什么时候该调用搜索引擎、计算器、代码解释器）
可控检索（什么时候该查文档、什么时候凭记忆）
可控多模态融合（什么时候看图像、什么时候读文本、什么时候听音频）

PF-OPSD 的训练范式（特权信息蒸馏 + on-policy 自训练）也可能适用于这些场景。

---

一句话总结

世界模型不是给语言模型配一双眼睛，而是配了一个需要被管理的顾问。语言模型要学会：什么时候请教顾问、怎么判断顾问说得对不对、以及在顾问胡说时怎么靠自己。模拟惰性不是"模型懒"，是训练目标没教会它用视觉；强制模拟悖论不是"世界模型差"，是语言模型没学会验证。PF-OPSD 的解法很聪明——用真实未来做老师，教模型在没有未来的情况下做出正确决策。

论文地址：https://arxiv.org/abs/2606.03603

#世界模型 #语言模型 #多模态推理 #视觉推理 #物理预测 #AI推理