大语言模型擅长抽象推理,世界模型擅长视觉仿真。直觉上把它们拼在一起应该更强——让语言模型写prompt,世界模型生成视频,然后语言模型从视频里找答案。
但论文作者发现,这种 naive 的结合有两个致命缺陷:
- 模拟惰性:模型明明需要仿真,却懒得调用,还是靠语言瞎猜
- 强制模拟悖论:强迫模型用仿真,结果反而被错误视频带偏,准确率更低
这引出了一个核心问题:不是"要不要用世界模型",而是"什么时候该信它"。
一、模拟惰性:模型就是不想用眼睛
实验设置很简单:给模型一个问题,世界模型可用可不用,让模型自己决定。
结果触目惊心:
- Gemini-3-Flash:96% 的题不调用世界模型
- Qwen3.5-9B:98% 的题不调用世界模型
即使提示明确说"对复杂空间推理建议使用模拟",模型还是几乎不用。它宁愿在语言层面做抽象推理,也不愿意生成一段视频来看看到底发生了什么。
这很像人类行为:有时候你明明可以查一下地图,但宁愿凭印象瞎猜。但模型的"惰性"更严重——它不是"懒",而是没有学会把视觉仿真纳入决策流程。语言模型的训练目标是预测下一个token,这个优化目标天然偏向快速抽象推理,而不是慢速视觉模拟。
二、强制模拟悖论:信了不该信的
好,既然模型不愿意用,那就强制它用——每道题都配一段世界模型生成的视频。
表面上,准确率确实提升了:
- VRQABench:33.2% → 39.8%(+6.6%)
- OpenWorldQA:32.6% → 38.6%(+6.0%)
但论文指出这是虚假的进步。模型并不是"学会了用仿真",而是无条件接受了仿真结果。当世界模型生成的视频"看起来合理但答案错误"时,模型也跟着错。
举个例子:问"球滚下斜坡后会往哪边飞?"世界模型生成了球往左飞的视频(因为某个物理参数设置错了)。模型看了视频,说"往左飞"。但正确答案是往右飞。模型没有验证视频的可靠性,直接把视频里的结果当成了答案。
这就是悖论:强制模拟虽然整体数字上升,但上升的来源是盲目信任,而不是批判性使用。当rollout出错时,模型比不用模拟时错得更离谱。
三、可控具体推理:让模型学会"挑着用"
论文提出的框架叫 Controlled Concrete Reasoning,核心是一个五步决策流程:
| 步骤 | 决策 | 含义 |
|---|---|---|
| 1 | 是否调用世界模型? | 基于问题和初始状态判断是否需要仿真 |
| 2 | 生成模拟 prompt | 如果需要,写一段提示让世界模型生成视频 |
| 3 | 验证 rollout 可靠性 | 看世界模型生成的视频是否可信、是否一致 |
| 4 | 决定依赖程度 | 完全信任 / 部分参考 / 忽略回退到抽象推理 |
| 5 | 输出答案 | 综合仿真和推理,给出最终答案 |
关键不是"用不用",而是每一步都是可学习的决策点。模型要学会:什么时候需要模拟(而不是抽象推理就够了),怎么验证模拟结果(而不是无脑接受),以及在模拟不可靠时怎么回退到抽象推理。
四、PF-OPSD:用"未来真相"教模型做判断
训练框架叫 Privileged-Future On-Policy Self-Distillation(PF-OPSD),名字很长,但核心思想很简洁:
- 训练时:老师模型(特权评估器)可以看到真实未来视频和正确答案。它评估学生模型生成的"推理轨迹"(包括是否调用模拟、模拟了什么、怎么验证),给每个决策打分。
- 测试时:学生模型看不到真实未来,必须自己判断每一步。
这是一种自蒸馏——学生模型从自己生成的轨迹中学习,但老师的反馈来自真实未来。这让学生模型学会"在没有未来信息的情况下,做出对未来最有利的决策"。
效果:
- VRQABench:+10.6%
- OpenWorldQA:+10.9%
而且更关键的是:对噪声和冲突 rollout 的鲁棒性显著增强。模型不再无条件信任模拟,而是学会了"挑着用"。
五、两个新基准:VRQABench 和 OpenWorldQA
论文做了两个基准测试,都是未来预测任务:
VRQABench(4636 题):空间规划推理,结构化谜题。比如:一个迷宫里有几个球,给定初始位置,预测几秒后某个球在哪里。特点是环境可控、规则明确,适合测试"可控具体推理"。
OpenWorldQA(4404 题):真实世界物理预测,开放自然场景。比如:给一张户外照片,预测几分钟后云朵的位置、或者球滚下草坡后的轨迹。特点是环境复杂、不确定性高,适合测试"在真实噪声下的鲁棒性"。
两个基准都只给模型初始状态的一张图,要求预测未来。这排除了"模型看到多帧直接猜"的作弊可能,强迫模型真正进行推理或仿真。
所有样本经过人工验证,质量可控。
六、这个工作的深层意义
这篇论文的价值不只是"提出一个新方法涨了10个点"。它揭示了一个更深层的问题:多模态融合不是简单拼接,而是需要决策仲裁。
过去的主流思路是:
- 语言模型 + 视觉编码器 → 看得见的语言模型
- 语言模型 + 世界模型 → 能仿真的语言模型
但这篇论文指出,真正的问题不是"给不给模型看",而是模型看不看、信不信、用多少。这是一个元认知问题——模型需要对自己的推理过程进行监控和调节。
如果把这条思路延伸,类似的"可控X推理"可以出现在很多场景:
- 可控工具使用(什么时候该调用搜索引擎、计算器、代码解释器)
- 可控检索(什么时候该查文档、什么时候凭记忆)
- 可控多模态融合(什么时候看图像、什么时候读文本、什么时候听音频)
PF-OPSD 的训练范式(特权信息蒸馏 + on-policy 自训练)也可能适用于这些场景。
一句话总结
世界模型不是给语言模型配一双眼睛,而是配了一个需要被管理的顾问。语言模型要学会:什么时候请教顾问、怎么判断顾问说得对不对、以及在顾问胡说时怎么靠自己。模拟惰性不是"模型懒",是训练目标没教会它用视觉;强制模拟悖论不是"世界模型差",是语言模型没学会验证。PF-OPSD 的解法很聪明——用真实未来做老师,教模型在没有未来的情况下做出正确决策。
论文地址:https://arxiv.org/abs/2606.03603
#世界模型 #语言模型 #多模态推理 #视觉推理 #物理预测 #AI推理
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。