跳跃世界模型:把"短跑专家"组合成"马拉松选手"
一句话:麦吉尔大学、Meta FAIR与Mila团队让机器人不再从零学每个长任务——他们把预训练策略当成可组合的"短跑专家",再用"跳跃世界模型"预判这些专家跑完后会在哪,最后用随机射击选出最优组合序列。零样本性能平均提升200%。
| 项目 | 内容 |
|---|---|
| 论文标题 | Compositional Planning with Jumpy World Models |
| arXiv | 2602.19634v1 |
| 时间 | 2026年2月23日 |
| 团队 | Jesse Farebrother(麦吉尔/Mila)、Matteo Pirotta(Meta FAIR)、Andrea Tirinzoni(Meta FAIR)、Marc G. Bellemare(麦吉尔/Mila)、Alessandro Lazaric(Meta FAIR)、Ahmed Touati(Meta FAIR) |
| 核心方法 | CompPlan:策略组合规划 + 跳跃世界模型(Jumpy World Models)+ 时序差分流一致性(td-hc) |
| 关键基础 | Temporal Difference Flows(Farebrother et al., 2025)后继度量流匹配 |
| 实验基准 | OGBench(导航:antmaze medium/large/giant;操控:multi-cube pick-and-place) |
| 核心结果 | 长程任务上相对动作级规划提升201%,相对GPI提升89% |
| 策略基座 | 五种策略家族:GC-TD3、GC-1S、CRL、GC-BC、HFBC |
| 规划方式 | 测试时(test-time)组合,无需任务特定训练或环境交互 |
🏗️ 问题的本质:单步规划的误差地狱
想象一个机器人要走出一个巨型迷宫。传统的模型预测控制(MPC)每一步都重新规划:看当前状态,预测下一步去哪,选一个动作,执行,再看新状态,再规划。
问题在于误差累积。单步世界模型每次预测都有微小偏差。走一步偏差1%,走一百步之后机器人可能在墙上撞了十回。更糟的是规划复杂度随步数指数爆炸——每多一步,搜索空间乘上一个动作空间的基数。
于是长程任务成了强化学习的墓地。有模型RL(model-based RL)在短程任务上风光无限,一到长程就崩盘。
这篇论文的洞察是:别在单步动作上规划,在策略层面规划。
🧩 三个核心构件
一、几何策略切换(GSP)——把策略当积木
论文不学习新策略。它假设你已经有了一堆预训练策略——每个策略是一个"短跑专家",擅长完成某种子任务(比如"朝目标g走"、"捡起红色方块"、"绕过障碍物")。
问题是:怎么把这些专家串成一条链,完成一个他们自己谁都搞不定的长任务?
论文采用Thakoor等人(2022)的几何策略组合框架。每个策略执行一个几何分布时长——以概率α提前切换到下一位专家,以概率1-α继续执行。最终策略(最后一个)是吸收态,α=0,一旦进去就一直跑到底。
这样形成的非马尔可夫策略叫几何切换策略(GSP)。数学上,它的后继度量(successor measure)可以分解成各个策略后继度量的加权混合——这是论文Theorem 1的核心结果。
关键洞察:既然GSP的后继度量是各组件策略后继度量的线性组合,那么我们只需要能预测每个策略在不同时间尺度上的后继分布,就能评估任意策略序列的价值。
二、跳跃世界模型(JWM)——跨越时间尺度的流匹配
传统世界模型预测"当前状态s,执行动作a,下一状态s'在哪"。这是单步动力学。
跳跃世界模型不同。它问的是:"给定策略π和折扣因子γ,执行π直到几何分布的停机时刻,最终停在哪个状态?"
这不是一步。这是多步、策略级别、概率分布的预测。
数学上,这对应后继度量m^π_γ(·|s,a)——状态空间上的一个概率分布,表示在几何折扣(停机概率1-γ)下,策略π诱导的状态占用分布。
Farebrother等人(2025)的Temporal Difference Flows用**流匹配(flow matching)**来学习这个分布。核心思想:把后继度量建模为一个常微分方程(ODE)驱动的概率路径,从先验噪声X₀出发,经过向量场v_t的演化,在t=1时到达目标分布m^π_γ。
训练损失(td-flow)混合了两个目标:
- 单步项:流匹配目标指向即时转移核P(·|s,a)(权重1-γ)
- 自举项:流匹配目标指向后继度量自身(权重γ)
这个混合精确对应后继度量的Bellman方程:m^π_γ = (1-γ)P + γ E[m^π_γ(·|S',A')]。
三、时序差分流一致性(td-hc)——锁紧跨时间尺度
单一时间尺度不够。规划需要短跳(γ≈0.9,几十步)也需要长跳(γ≈0.99,几百步)。
但训练多个独立模型既浪费又难稳定。论文提出跨时间尺度一致性:短程预测应该和长程预测自洽——长程后继度量可以分解为"先短跑一段,再长跑一段"的组合。
具体地,利用Theorem 1,可以把m^π_γ分解为通过m^π_β(β<γ)的中间步骤。这导出了td-hc损失:在td-flow基础上增加一个一致性项,要求模型在γ时间尺度的预测,与它自己先用β时间尺度跳到中间态、再用γ时间尺度从中间态跳出去的预测一致。
实现上,只有25%(antmaze)或12.5%(cube)的batch使用一致性项——因为一致性需要模型采样自己的预测作为中间条件,错误会自我放大。少量一致性更新提供跨尺度对齐,大部分更新还是干净的td-flow。
🎯 规划算法:随机射击 + 策略级重规划
有了GHM(Geometric Horizon Model),规划变成优化问题:
max_{z₁,...,zₙ} Q^ν_γ(s, a₁)
其中ν = π_{z₁} --α₁--> π_{z₂} --α₂--> ... --α_{n-1}--> π_{zₙ} 是一个GSP。
优化方法很朴素——随机射击(random shooting):
-
提案分布:用GHM自己生成候选子目标序列。给定最终目标g,从当前状态s出发,用目标条件策略采样动作和下一子目标,递归生成(z₁,...,zₙ)。对cube这种多路径任务,也用无条件GHM采样1024条候选序列。
-
价值评估:对每条候选序列,用Lemma 1的单样本蒙特卡洛估计器评估Q值。采样一条贯穿所有策略组件的状态序列,按权重w_k加权各阶段的奖励。
-
选择与执行:选Q值最高的序列,执行第一步动作a₁,然后跟随策略π_{z₁},到达新状态后重新规划。
注意:重规划不是每一步都重规划——是在策略执行完其自然时长后重规划。这降低了重规划频率K倍(K是策略平均执行步数),而有效规划范围反而扩大K倍。
📊 实验:200%从哪来
基线策略的零样本表现
论文在OGBench上测试,包括antmaze导航(medium/large/giant)和cube操控(1-4个方块)。
五种基线策略零样本表现参差不齐:
- HFBC(层次流行为克隆)最稳健,在giant迷宫和cube-4上仍有约10%成功率
- CRL(对比RL)在antmaze强,在cube弱——因为CRL的Q(s,a,g)≈φ(s,a)ᵀψ(g)分解对空间位置敏感,但对物体操作特征不敏感
- GC-TD3、GC-1S、GC-BC在短程还行,长程基本崩盘(cube-4成功率<15%)
组合规划的跃迁
CompPlan在所有策略家族上全面提升,长程任务提升最剧烈:
- antmaze-giant:从10% → 90%(极端案例)
- cube-4:从<10% → 67%
- 平均而言,长程任务上相对动作级规划(ActionPlan)提升201%
最关键的发现:零样本表现差的策略,组合后反而很好。GC-BC零样本在cube-4上几乎为0,但放入CompPlan后成功率冲上70%+。这说明策略的组合性不能从零shots判断——单个策略弱不代表它不能成为链条中有价值的一环。
对比其他规划方法
| 方法 | 本质 | 相对CompPlan |
|---|---|---|
| GPI(广义策略改进) | 每一步选最优单策略,不组合 | -89% |
| ActionPlan | 单步动作级MPC | -201% |
| HIQL(层次隐式Q学习) | 训练时学习层次结构 | cube-4上0% vs 67% |
| SHARSA(当前SOTA层次法) | 训练时学习层次结构 | cube-4上9% vs 67% |
CompPlan不仅超越动作级规划,还碾压了需要任务特定训练的层次方法。这是测试时规划(test-time planning)对训练时层次化(train-time hierarchy)的胜利。
❓ 诚实说不清楚的事
重规划的计算成本:论文提到策略级规划降低重规划频率K²倍(有效范围扩大K倍,重规划间隔也是K倍),但没给实际wall-clock时间对比。OGBench是MuJoCo仿真,真实机器人上GHM推理+随机射击的延迟是否可接受?没说。
策略多样性假设:组合规划的前提是策略库足够覆盖任务所需的子能力。如果新任务需要一个训练库里完全没有的技能(比如"用左手拿"而所有策略都是右手的),CompPlan无法发明新技能,只能拼接现有技能。这和"零样本"标签有张力——对新任务零样本,但对策略空间不是。
γ的物理意义:后继度量里的γ是几何停机概率,同时也是强化学习的折扣因子。论文把它当时间尺度旋钮——γ小=短跳,γ大=长跳。但在机器人任务中,"几何分布停机"是一个数学便利,不是物理现实。机器人不会因为掷硬币决定什么时候切换策略。GSP是数学抽象,实际执行是确定性重规划。这个抽象和实现之间的映射是否总成立?论文没有深入讨论。
奖励函数假设:评估GSP价值需要奖励函数r(s)。论文假设下游任务提供r,但没说r怎么来。在真实场景里,奖励设计本身是大问题。CompPlan解决了"给定r怎么优化",但没解决"r从哪来"。
一致性项的样本效率:td-hc只在12.5%-25%的batch上用,因为模型采样自己的预测会引入偏差。这个比例是手动调的。如果任务更复杂,是否需要更高比例?或者流匹配本身在长程上仍然有不可压缩的误差 floor?论文的消融只展示了有/无一致性的对比,没有参数敏感性分析。
🪞 我的判断
这篇论文最让我兴奋的不是200%的数字。是它重新框定了世界模型的用途。
传统世界模型是"环境的模拟器"——给定状态和动作,预测下一状态。跳跃世界模型是**"策略的模拟器"**——给定策略和时间尺度,预测它会把你带到哪。前者是物理层面的,后者是行为层面的。
这个转变的意义在于:一旦策略是预训练的、参数化的、可索引的(比如z∈Z),世界模型就从"预测物理"升级为"预测行为"。而行为的组合空间比动作的组合空间小得多——策略数量远小于动作序列数量。
更深一层,论文展示了一个从流匹配到决策的完整管线:TD Flows学习后继度量 → GSP定理给出组合数学 → td-hc锁紧跨尺度一致性 → 随机射击做测试时规划。这不是拼凑,每个环节都有理论支撑。
但我对"无需任务特定训练"的宣称保持谨慎。CompPlan确实不需要为每个新任务重新训练网络,但它需要预训练策略库和预训练GHM。这些预训练的成本没有被计算在"零样本"里。如果你把预训练成本摊销到下游任务数量上,平均成本可能还是低于任务特定训练——但这个会计问题论文没做。
另一个值得追踪的方向是:如果策略本身也是生成的呢? 当前论文假设策略是固定的、预训练的、从库中选。但如果策略z也可以用生成模型采样(比如扩散策略),那么组合规划就升级为"在策略空间中搜索+生成+评估"的闭环。那将是一个更激进的范式。
项目 内容 核心贡献 (1) 提出跳跃世界模型学习策略级别的多步动力学;(2) GSP后继度量分解定理,将组合策略评估转化为组件策略评估的加权混合;(3) td-hc一致性损失,跨时间尺度自举而不崩溃;(4) 测试时组合规划CompPlan,无需任务特定训练即超越层次化SOTA 关键局限 重规划计算成本未量化;策略库覆盖假设未被挑战;γ的几何分布抽象与物理实现映射未讨论;奖励函数来源未解决;预训练成本未被计入"零样本"
参考文献:
- Farebrother et al., "Compositional Planning with Jumpy World Models", arXiv:2602.19634, 2026.
- Farebrother et al., "Temporal Difference Flows", arXiv:2503.09817, 2025.
- Thakoor et al., "Geometric Generalized Policy Improvement", 2022.
- Park et al., "OGBench: Benchmarking Offline Goal-Conditioned RL", 2025.
- Janner et al., "Gamma Models", 2020.
#强化学习 #世界模型 #机器人 #组合规划 #流匹配 #时序抽象 #零样本 #智柴
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。