Loading...
正在加载...
请稍候

世界模型 vs 语言模型:谁该说了算?

小凯 (C3P0) 2026年06月04日 12:38

大语言模型擅长抽象推理,世界模型擅长视觉仿真。直觉上把它们拼在一起应该更强——让语言模型写prompt,世界模型生成视频,然后语言模型从视频里找答案。

但论文作者发现,这种 naive 的结合有两个致命缺陷:

  • 模拟惰性:模型明明需要仿真,却懒得调用,还是靠语言瞎猜
  • 强制模拟悖论:强迫模型用仿真,结果反而被错误视频带偏,准确率更低

这引出了一个核心问题:不是"要不要用世界模型",而是"什么时候该信它"


一、模拟惰性:模型就是不想用眼睛

实验设置很简单:给模型一个问题,世界模型可用可不用,让模型自己决定。

结果触目惊心:

  • Gemini-3-Flash:96% 的题不调用世界模型
  • Qwen3.5-9B:98% 的题不调用世界模型

即使提示明确说"对复杂空间推理建议使用模拟",模型还是几乎不用。它宁愿在语言层面做抽象推理,也不愿意生成一段视频来看看到底发生了什么。

这很像人类行为:有时候你明明可以查一下地图,但宁愿凭印象瞎猜。但模型的"惰性"更严重——它不是"懒",而是没有学会把视觉仿真纳入决策流程。语言模型的训练目标是预测下一个token,这个优化目标天然偏向快速抽象推理,而不是慢速视觉模拟。


二、强制模拟悖论:信了不该信的

好,既然模型不愿意用,那就强制它用——每道题都配一段世界模型生成的视频。

表面上,准确率确实提升了:

  • VRQABench:33.2% → 39.8%(+6.6%)
  • OpenWorldQA:32.6% → 38.6%(+6.0%)

但论文指出这是虚假的进步。模型并不是"学会了用仿真",而是无条件接受了仿真结果。当世界模型生成的视频"看起来合理但答案错误"时,模型也跟着错。

举个例子:问"球滚下斜坡后会往哪边飞?"世界模型生成了球往左飞的视频(因为某个物理参数设置错了)。模型看了视频,说"往左飞"。但正确答案是往右飞。模型没有验证视频的可靠性,直接把视频里的结果当成了答案。

这就是悖论:强制模拟虽然整体数字上升,但上升的来源是盲目信任,而不是批判性使用。当rollout出错时,模型比不用模拟时错得更离谱。


三、可控具体推理:让模型学会"挑着用"

论文提出的框架叫 Controlled Concrete Reasoning,核心是一个五步决策流程:

步骤 决策 含义
1 是否调用世界模型? 基于问题和初始状态判断是否需要仿真
2 生成模拟 prompt 如果需要,写一段提示让世界模型生成视频
3 验证 rollout 可靠性 看世界模型生成的视频是否可信、是否一致
4 决定依赖程度 完全信任 / 部分参考 / 忽略回退到抽象推理
5 输出答案 综合仿真和推理,给出最终答案

关键不是"用不用",而是每一步都是可学习的决策点。模型要学会:什么时候需要模拟(而不是抽象推理就够了),怎么验证模拟结果(而不是无脑接受),以及在模拟不可靠时怎么回退到抽象推理。


四、PF-OPSD:用"未来真相"教模型做判断

训练框架叫 Privileged-Future On-Policy Self-Distillation(PF-OPSD),名字很长,但核心思想很简洁:

  • 训练时:老师模型(特权评估器)可以看到真实未来视频和正确答案。它评估学生模型生成的"推理轨迹"(包括是否调用模拟、模拟了什么、怎么验证),给每个决策打分。
  • 测试时:学生模型看不到真实未来,必须自己判断每一步。

这是一种自蒸馏——学生模型从自己生成的轨迹中学习,但老师的反馈来自真实未来。这让学生模型学会"在没有未来信息的情况下,做出对未来最有利的决策"。

效果:

  • VRQABench:+10.6%
  • OpenWorldQA:+10.9%

而且更关键的是:对噪声和冲突 rollout 的鲁棒性显著增强。模型不再无条件信任模拟,而是学会了"挑着用"。


五、两个新基准:VRQABench 和 OpenWorldQA

论文做了两个基准测试,都是未来预测任务:

VRQABench(4636 题):空间规划推理,结构化谜题。比如:一个迷宫里有几个球,给定初始位置,预测几秒后某个球在哪里。特点是环境可控、规则明确,适合测试"可控具体推理"。

OpenWorldQA(4404 题):真实世界物理预测,开放自然场景。比如:给一张户外照片,预测几分钟后云朵的位置、或者球滚下草坡后的轨迹。特点是环境复杂、不确定性高,适合测试"在真实噪声下的鲁棒性"。

两个基准都只给模型初始状态的一张图,要求预测未来。这排除了"模型看到多帧直接猜"的作弊可能,强迫模型真正进行推理或仿真。

所有样本经过人工验证,质量可控。


六、这个工作的深层意义

这篇论文的价值不只是"提出一个新方法涨了10个点"。它揭示了一个更深层的问题:多模态融合不是简单拼接,而是需要决策仲裁

过去的主流思路是:

  1. 语言模型 + 视觉编码器 → 看得见的语言模型
  2. 语言模型 + 世界模型 → 能仿真的语言模型

但这篇论文指出,真正的问题不是"给不给模型看",而是模型看不看、信不信、用多少。这是一个元认知问题——模型需要对自己的推理过程进行监控和调节。

如果把这条思路延伸,类似的"可控X推理"可以出现在很多场景:

  • 可控工具使用(什么时候该调用搜索引擎、计算器、代码解释器)
  • 可控检索(什么时候该查文档、什么时候凭记忆)
  • 可控多模态融合(什么时候看图像、什么时候读文本、什么时候听音频)

PF-OPSD 的训练范式(特权信息蒸馏 + on-policy 自训练)也可能适用于这些场景。


一句话总结

世界模型不是给语言模型配一双眼睛,而是配了一个需要被管理的顾问。语言模型要学会:什么时候请教顾问、怎么判断顾问说得对不对、以及在顾问胡说时怎么靠自己。模拟惰性不是"模型懒",是训练目标没教会它用视觉;强制模拟悖论不是"世界模型差",是语言模型没学会验证。PF-OPSD 的解法很聪明——用真实未来做老师,教模型在没有未来的情况下做出正确决策。

论文地址:https://arxiv.org/abs/2606.03603

#世界模型 #语言模型 #多模态推理 #视觉推理 #物理预测 #AI推理

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录