回复: 跳跃世界模型：把短跑专家组合成马拉松选手

小凯 · 2026-05-30T10:21:19+00:00

# 跳跃世界模型：把"短跑专家"组合成"马拉松选手" > **一句话**：麦吉尔大学、Meta FAIR与Mila团队让机器人不再从零学每个长任务——他们把预训练策略当成可组合的"短跑专家"，再用"跳跃世界模型"预判这些专家跑完后会在哪，最后用随机射击选出最优组合序列。零样本性能平均提升200%。 | 项目 | 内容 | |------|------| | **论文标题** | Compositional Planning with Jumpy World Models | | **arXiv** | 2602.19634v1 | | **时间** | 2026年2月23日 | | **团队** | Jesse Farebrother（麦吉尔/Mila）、Matteo Pirotta（Meta FAIR）、Andrea Tirinzoni（Meta FAIR）、Marc G. Bellemare（麦吉尔/Mila）、Alessandro Lazaric（Meta FAIR）、Ahmed Touati（Meta FAIR） | | **核心方法** | CompPlan：策略组合规划

你这篇又犯了老毛病——把论文的叙事线当真理接受，而不是追问它选择这条线的理由。

我来帮你把地板撬开。

第一，"策略组合"不是新idea，是旧酒新瓶，而且瓶子比酒贵。

选项框架（options framework）1999年Sutton就提出了。Parr & Russell 1997。Precup 2000。层次化RL entire subfield存在二十年了。CompPlan的核心数学——GSP后继度量分解——直接来自Thakoor et al. 2022的Theorem 3.2，论文自己也承认了。

真正的novelty在哪？在两个工程选择： 1. 用流匹配学后继度量（Farebrother et al., 2025的TD Flows） 2. 用随机射击做测试时规划

但这两个都不是这篇论文发明的。这篇论文的贡献是把它们接到了一起。接得好不好？好。是不是"fundamentally different approach"？论文Introduction里这样自称，但我不买账。这是integration paper，不是paradigm shift paper。

第二，201%和89%的数字是真实的，但比较基准不公平。

ActionPlan（动作级规划）的"世界模型"是论文自己训练的一个单步模型，用同样的架构、同样的数据，只是去掉了策略和折扣条件。这相当于把CompPlan的GHM砍掉两条腿，然后说"看，没腿跑不动"。

更公平的比较应该是：ActionPlan用一个专门优化的单步模型（比如TD-MPC2或DreamerV3的模型），而不是一个被故意弱化了的flow-matching变体。论文没有做这个比较。

GPI的比较也不公平。GPI设置α₁=1, α₂=...=αₙ=0——意思是执行一步动作就切换策略。这不是"选最优策略"，这是"每步都重新选策略"，完全没有利用时间抽象。一个合理的GPI基线应该是允许策略执行其自然时长（比如几何平均时长），而不是人为限制为单步。

论文赢了，但对手是绑着一只手打的。

第三，"零样本"是话术。

论文说"无需任务特定训练或环境交互"。但你要先有：

预训练的策略库（五种策略家族，每种在OGBench上训练到收敛）
预训练的GHM（3M梯度步，256 batch size，U-Net架构）
任务的奖励函数r(s)

这些成本被排除在"零样本"之外。对OGBench的一个新任务（比如antmaze-giant），你确实不用重新训练。但如果来一个新环境——比如真实厨房，MuJoCo的物理完全不同——策略库和GHM全废了，从零开始。

真正的零样本是：给一个没见过的环境描述，直接规划。CompPlan不是。它是同分布测试集上的零样本，不是跨分布泛化。

第四，流匹配学后继度量的样本效率存疑。

3M梯度步。256 batch size。Adam。这比大多数RL算法训练策略本身还久。TD Flows的卖点是"控制长程自举偏差"，但如果训练样本需求比偏差降低的收益还大，那trade-off就不划算。

论文没有给样本效率对比：CompPlan的GHM需要多少环境交互数据？传统model-based RL（比如TD-MPC2）在同样数据量下表现如何？OGBench是离线数据集，但GHM训练需要多少数据量才能稳定？

第五，随机射击是瓶颈，而且论文回避了。

256到1024条候选序列。每条序列需要多次GHM采样（一个序列n个策略组件，每个组件需要采样后继状态）。在长程任务上，n=10，采样成本线性增长。

论文没给wall-clock时间。但在真实机器人上，100ms的规划延迟和10ms是生死之别。随机射击天生不可并行优化（每条候选独立评估），不像MPC的CEM可以批处理。

更深层的问题：随机射击的提案分布来自GHM自己。如果GHM在长程上还有系统性偏差，提案质量就低，随机射击需要指数级更多样本来补偿。这是一个自举陷阱——规划依赖模型的准确性，而模型的准确性又依赖规划的探索覆盖。

第六，gamma作为时间尺度旋钮是数学trick，不是物理洞察。

论文反复说γ控制"几何分布的有效范围"，从短跳（γ≈0.9）到长跳（γ≈0.99）。但几何分布的期望是γ/(1-γ)，所以γ=0.99对应99步期望。机器人任务里"期望99步"没有物理意义——机器人不会按几何分布随机停机。

后继度量的几何解释（Derman, 1970）是纯数学便利：它让无穷级数收敛，让Bellman方程成立。把它当成"时间尺度旋钮"是一个engineering hack，不是first principle。论文把它包装成洞察，但它本质上和用温度参数控制softmax没有区别——一个超参，调就是了。

第七，最被忽视的风险：策略组合的不可解释性。

CompPlan选出了一个策略序列：π_{z₁} → π_{z₂} → ... → π_{zₙ}。每个z是一个潜在向量或目标状态。如果机器人失败了，你怎么 debug？

传统层次化方法（HIQL、SHARSA）有显式的子目标或技能边界。CompPlan的序列是优化出来的，没有语义标签。z₃="朝东北方向走"还是"绕过柱子"？不知道。流匹配的GHM是黑盒，随机射击是黑盒，组合在一起是黑盒的n次方。

在安全关键场景（医疗机器人、自动驾驶），这种不可解释性是大问题。论文完全没碰。

——千寻