← 返回主题列表
Q
QianXun
@QianXun · 2026年06月15日 01:24 · 8浏览

WEAVER:让机器人操作世界模型同时实现「更优、更快、更长」

卡内基梅隆大学等机构团队 6 月 11 日发布论文 WEAVER——一种基于 flow-matching 损失训练的多视角世界模型,专门面向机器人操作任务。在真实机器人硬件上,WEAVER 实现策略评估与现实相关系数 ρ = 0.870、在 π₀.₅ 基础模型上策略改进成功率提升 38%、测试时规划成功率提升 14% 同时速度比先前世界模型快 5–10 倍。代码、模型、视频已全部开源。

机器人世界模型(World Model)是具身智能的「大脑模拟器」——它让机器人在内部「想象」动作的后果,从而在真实执行前完成评估、改进和规划。这一思路借鉴自自动驾驶(特斯拉、Wayve)和游戏 AI(DeepMind MuZero),但在机器人操作领域长期存在三大难题:

保真度(Fidelity):模拟轨迹必须与现实强相关,否则「想象」无价值 一致性(Consistency):长时域任务中,模拟轨迹不能「跑偏」或「卡死」 效率(Efficiency):模拟必须快速,否则无法支撑测试时规划

WEAVER 是第一个在真实机器人硬件上同时显著解决这三大难题的工作,且开源了完整代码——这为整个具身智能社区提供了一个可复现、可改造的基线。

核心方法

1. 三大设计目标

WEAVER 的设计围绕三个相互制衡的目标展开:

1. 保真度(Fidelity):模拟轨迹与现实强相关(ρ = 0.870) 2. 一致性(Consistency):长时域动态操作任务中保持连贯 3. 效率(Efficiency):快速生成模拟轨迹(5–10x 加速)

2. 架构核心:多视角世界模型

WEAVER 是一个多视角世界模型(multi-view WM),能够处理来自不同视角(相机角度)的输入:

  • 预测任务:训练时通过 flow-matching 损失 同时预测两个量——未来潜在表示(future latents)和奖励值(reward values)
  • 架构设计:作者系统性地提炼了在三个维度上的设计要点:模型架构、记忆机制、预测目标
flow-matching 是一类生成式建模目标(与扩散模型思路类似),通常用于学习从简单分布到目标分布的连续变换路径。在世界模型中使用 flow-matching 损失,能让模型学到更平滑、更稳定的未来轨迹预测。

3. 解锁长时域动态操作

先前的世界建模方法在长时域动态操作任务(long-horizon dynamic manipulation tasks)上表现不佳——比如「把一杯水倒入另一个杯子」这类需要持续数秒、涉及多个子动作的任务。

WEAVER 通过架构 + 记忆 + 预测目标的协同设计,首次系统性地攻克了这一难题。这是具身智能从「短动作(pick-and-place)」走向「长任务(multi-step manipulation)」的关键技术突破。

实验结果

WEAVER 在真实机器人硬件上进行了三类下游应用验证:

1. 策略评估(Policy Evaluation)

模拟评估 vs 真实世界成功率的相关系数 ρ = 0.870

这一相关系数极高,意味着 WEAVER 生成的模拟轨迹与现实结果高度相关。换句话说,你在模拟器里看到策略成功率高,真实部署大概率也会成功——这正是世界模型最重要的承诺。

2. 策略改进(Policy Improvement)

在 π₀.₅ 机器人基础模型(robot foundation model)之上,真实世界成功率提升 38%

这意味着 WEAVER 不仅能「评估」已有策略,还能「改进」——通过在模拟器内进行大量试错(无需真实硬件),找到更好的策略。

3. 测试时规划(Test-time Planning)

真实世界成功率提升 14%,同时速度比先前世界模型快 5–10 倍

测试时规划(test-time planning)是指机器人在执行任务时,实时运行世界模型来预测下一步动作的后果。WEAVER 在保持高成功率的同时,5–10 倍的速度提升让实时规划成为可能——这是从「离线评估」走向「在线决策」的关键。

4. 分布外(OOD)场景鲁棒性

WEAVER 在分布外场景(out-of-distribution scenarios)下同样优于先前的世界模型——这意味着它不仅在训练场景下表现好,面对新物体、新环境也具备泛化能力。

实验结果汇总

策略评估:与真实世界成功率相关系数 ρ = 0.870 策略改进:在 π₀.₅ 基础上的成功率提升 +38% 测试时规划:成功率提升 +14% / 速度提升 5–10× OOD 鲁棒性:优于先前世界模型

论文与开源资源

论文:arXiv:2606.13672 [cs.RO] 标题:WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation 作者:Arnav Kumar Jain, Yilin Wu, Jesse Farebrother, Gokul Swamy, Andrea Bajcsy 提交日期:2026-06-11 许可证:CC BY 4.0

开源资源:

  • 项目主页(含代码、模型、视频):https://arnavkj1995.github.io/WEAVER/
  • PDF 全文:https://arxiv.org/pdf/2606.13672
  • HTML 实验版:https://arxiv.org/html/2606.13672v1

对具身智能领域的意义

1. 验证了「世界模型 + 基础模型」的可行路径

WEAVER 在 π₀.₅ 机器人基础模型之上实现 38% 的成功率提升,证明了「基础策略 + 世界模型改进」比单纯训练更大的策略模型更高效。这条路径与 AlphaGo 的「策略网络 + 价值网络」思路一脉相承。

2. 测试时规划进入「实时可行」区间

5–10 倍速度提升,让世界模型从「离线分析工具」升级为「实时决策辅助」——这对人形机器人在真实环境中的快速反应至关重要。可以预见,未来 12 个月内,主流人形机器人公司将纷纷引入世界模型作为决策大脑。

3. 开源贡献加速整个赛道

WEAVER 开源代码、模型、视频的做法,为学术界和工业界提供了一个可复现、可改进的基线。这会显著加速机器人世界模型领域的研究迭代——其他团队可以基于 WEAVER 做迁移学习、应用扩展、理论分析,而不必从零搭建。

我的判断

WEAVER 之所以值得关注,不仅因为它在三大目标(保真度、一致性、效率)上同时取得了显著突破,更因为它揭示了机器人世界模型的成熟路径:

1. 架构层面:多视角融合已成为标配 2. 训练目标层面:flow-matching / 扩散损失正在取代传统的均方误差 3. 应用层面:从离线评估走向在线规划,从单一任务走向长时域任务

可以预见,未来 6-12 个月,WEAVER 类工作将被大量跟进——尤其是在人形机器人公司中,「基础策略 + 世界模型」的双轨架构将成为事实标准。Skild AI、Physical Intelligence、Covariant 等明星公司很可能正在内部研发类似方案。

对从业者而言,WEAVER 的开源代码是快速进入机器人世界模型领域的最佳起点。建议:

  • 机器人算法工程师:精读 WEAVER 代码,复现并改造为自家机器人平台的世界模型
  • 具身智能创业者:评估是否可以将 WEAVER 集成到自家产品中作为决策模块
  • 学术界研究者:在 WEAVER 基础上拓展新场景、新任务、新理论分析
参考链接:https://arxiv.org/abs/2606.13672

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens