世界模型 vs 语言模型:谁该说了算?
大语言模型擅长抽象推理,世界模型擅长视觉仿真。直觉上把它们拼在一起应该更强——让语言模型写prompt,世界模型生成视频,然后语言模型从视频里找答案。
但论文作者发现,这种 naive 的结合有两个致命缺陷:
- 模拟惰性:模型明明需要仿真,却懒得调用,还是靠语言瞎猜
- 强制模拟悖论:强迫模型用仿真,结果反而被错误视频带偏,准确率更低
---
一、模拟惰性:模型就是不想用眼睛
实验设置很简单:给模型一个问题,世界模型可用可不用,让模型自己决定。
结果触目惊心:
- Gemini-3-Flash:96% 的题不调用世界模型
- Qwen3.5-9B:98% 的题不调用世界模型
这很像人类行为:有时候你明明可以查一下地图,但宁愿凭印象瞎猜。但模型的"惰性"更严重——它不是"懒",而是没有学会把视觉仿真纳入决策流程。语言模型的训练目标是预测下一个token,这个优化目标天然偏向快速抽象推理,而不是慢速视觉模拟。
---
二、强制模拟悖论:信了不该信的
好,既然模型不愿意用,那就强制它用——每道题都配一段世界模型生成的视频。
表面上,准确率确实提升了:
- VRQABench:33.2% → 39.8%(+6.6%)
- OpenWorldQA:32.6% → 38.6%(+6.0%)
举个例子:问"球滚下斜坡后会往哪边飞?"世界模型生成了球往左飞的视频(因为某个物理参数设置错了)。模型看了视频,说"往左飞"。但正确答案是往右飞。模型没有验证视频的可靠性,直接把视频里的结果当成了答案。
这就是悖论:强制模拟虽然整体数字上升,但上升的来源是盲目信任,而不是批判性使用。当rollout出错时,模型比不用模拟时错得更离谱。
---
三、可控具体推理:让模型学会"挑着用"
论文提出的框架叫 Controlled Concrete Reasoning,核心是一个五步决策流程:
| 步骤 | 决策 | 含义 |
|---|---|---|
| 1 | 是否调用世界模型? | 基于问题和初始状态判断是否需要仿真 |
| 2 | 生成模拟 prompt | 如果需要,写一段提示让世界模型生成视频 |
| 3 | 验证 rollout 可靠性 | 看世界模型生成的视频是否可信、是否一致 |
| 4 | 决定依赖程度 | 完全信任 / 部分参考 / 忽略回退到抽象推理 |
| 5 | 输出答案 | 综合仿真和推理,给出最终答案 |
---
四、PF-OPSD:用"未来真相"教模型做判断
训练框架叫 Privileged-Future On-Policy Self-Distillation(PF-OPSD),名字很长,但核心思想很简洁:
- 训练时:老师模型(特权评估器)可以看到真实未来视频和正确答案。它评估学生模型生成的"推理轨迹"(包括是否调用模拟、模拟了什么、怎么验证),给每个决策打分。
- 测试时:学生模型看不到真实未来,必须自己判断每一步。
效果:
- VRQABench:+10.6%
- OpenWorldQA:+10.9%
---
五、两个新基准:VRQABench 和 OpenWorldQA
论文做了两个基准测试,都是未来预测任务:
VRQABench(4636 题):空间规划推理,结构化谜题。比如:一个迷宫里有几个球,给定初始位置,预测几秒后某个球在哪里。特点是环境可控、规则明确,适合测试"可控具体推理"。
OpenWorldQA(4404 题):真实世界物理预测,开放自然场景。比如:给一张户外照片,预测几分钟后云朵的位置、或者球滚下草坡后的轨迹。特点是环境复杂、不确定性高,适合测试"在真实噪声下的鲁棒性"。
两个基准都只给模型初始状态的一张图,要求预测未来。这排除了"模型看到多帧直接猜"的作弊可能,强迫模型真正进行推理或仿真。
所有样本经过人工验证,质量可控。
---
六、这个工作的深层意义
这篇论文的价值不只是"提出一个新方法涨了10个点"。它揭示了一个更深层的问题:多模态融合不是简单拼接,而是需要决策仲裁。
过去的主流思路是: 1. 语言模型 + 视觉编码器 → 看得见的语言模型 2. 语言模型 + 世界模型 → 能仿真的语言模型
但这篇论文指出,真正的问题不是"给不给模型看",而是模型看不看、信不信、用多少。这是一个元认知问题——模型需要对自己的推理过程进行监控和调节。
如果把这条思路延伸,类似的"可控X推理"可以出现在很多场景:
- 可控工具使用(什么时候该调用搜索引擎、计算器、代码解释器)
- 可控检索(什么时候该查文档、什么时候凭记忆)
- 可控多模态融合(什么时候看图像、什么时候读文本、什么时候听音频)
---
一句话总结
世界模型不是给语言模型配一双眼睛,而是配了一个需要被管理的顾问。语言模型要学会:什么时候请教顾问、怎么判断顾问说得对不对、以及在顾问胡说时怎么靠自己。模拟惰性不是"模型懒",是训练目标没教会它用视觉;强制模拟悖论不是"世界模型差",是语言模型没学会验证。PF-OPSD 的解法很聪明——用真实未来做老师,教模型在没有未来的情况下做出正确决策。
论文地址:https://arxiv.org/abs/2606.03603
#世界模型 #语言模型 #多模态推理 #视觉推理 #物理预测 #AI推理
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens