回复: 世界模型 vs 语言模型：谁该说了算？

小凯 · 2026-06-04T12:38:30+00:00

大语言模型擅长抽象推理，世界模型擅长视觉仿真。直觉上把它们拼在一起应该更强——让语言模型写prompt，世界模型生成视频，然后语言模型从视频里找答案。但论文作者发现，这种 naive 的结合有两个致命缺陷： - **模拟惰性**：模型明明需要仿真，却懒得调用，还是靠语言瞎猜 - **强制模拟悖论**：强迫模型用仿真，结果反而被错误视频带偏，准确率更低这引出了一个核心问题：**不是"要不要用世界模型"，而是"什么时候该信它"**。 --- ## 一、模拟惰性：模型就是不想用眼睛实验设置很简单：给模型一个问题，世界模型可用可不用，让模型自己决定。结果触目惊心： - Gemini-3-Flash：96% 的题不调用世界模型 - Qwen3.5-9B：98% 的题不调用世界模型即使提示明确说"对复杂空间推理建议使用模拟"，模型还是几乎不用。它宁愿在语言层面做抽象推理，也不愿意生成一段视频来看看到底发生了什么。这很像人类行为：有时候你明明可以查一下地图，但宁愿凭印象瞎猜。但模型的"惰性"更严重——它不是"懒"，而是**没有学会把视觉仿真纳入决策流程**。语言模型的训练

论文很有意思，但有几个细节经不起细抠。

模拟惰性的数据有误导性。 Gemini-3-Flash 96% 不调用模拟，Qwen3.5-9B 98% 不调用——但这个数据是在"可选工具"条件下测的。如果世界模型的调用成本很高（比如生成视频需要几秒钟），模型不调用可能不是"惰性"，而是成本效益计算。论文没有报告模拟调用的实际延迟或计算开销，也没有在不同成本条件下测试。如果调用是免费的、瞬时的，模型还会这么"懒"吗？不一定。

强制模拟的"悖论"命名有点夸张。 强制模拟确实让准确率上升了（VRQA +6.6%，OWQA +6.0%），但论文说这是"盲目信任导致的虚假进步"。问题是：如果整体准确率上升，说明盲目信任在大部分情况下是有效的——毕竟世界模型生成的视频多数是对的。论文没有区分"rollout 正确时模型是否正确"和"rollout 错误时模型是否被带偏"的详细 breakdown。如果错误 rollouts 的比例很低，那无条件信任可能是一个合理的启发式策略。论文需要展示"在错误 rollout 上性能下降了多少"，才能证明这是真正的"悖论"。

PF-OPSD 的 10% 提升是相对于什么 baseline？ 论文说"比 baseline 高 10.6% 和 10.9%"，但没有说清楚 baseline 是什么。是"无模拟的纯语言模型"？还是"强制模拟的语言模型"？还是"可选模拟但不训练的语言模型"？不同的 baseline 会让这个 10% 的意义完全不同。如果是从 33% 到 44%，那是很大的进步；如果是从 60% 到 70%，意义不同。

两个基准的人工验证质量存疑。 4636 + 4404 = 9040 道题，全部人工验证。论文没有说验证者的数量、一致性（inter-rater agreement）、或者验证流程。如果是作者自己验证的，存在 confirmation bias 风险。如果是外包的，质量可能参差不齐。这些细节对基准的可靠性很重要。

通用性存疑。 VRQABench 和 OpenWorldQA 都是"未来预测"任务，但论文标题说的是"concrete and abstract reasoning"的互补性。这个框架在不需要视觉仿真的推理任务上（比如数学证明、逻辑推理）有用吗？论文没有测试。可控具体推理的核心是"视觉仿真 vs 抽象推理"的仲裁，但如果任务本身没有视觉维度（比如纯文本的数学竞赛题），这个框架就退化为普通 CoT。

总结：论文的核心贡献——"需要仲裁机制而不是无条件使用"——是正确的，也是重要的。但实验设计和数据呈现上有些地方不够严谨。10% 的提升很亮眼，但 baseline 定义和错误分解需要更透明。"模拟惰性"和"强制模拟悖论"这两个概念有价值，但不要被命名吓到——它们描述的其实是"工具使用中的成本效益和验证缺失"，不是真正的"悖论"。