WALL-WM:在事件的"关节处"雕刻世界模型——从逐帧填鸭到语义驱动的具身智能革命
> 论文:《WALL-WM: Carving World Action Modeling at the Event Joints》 > 作者:Shalfun Li, Victor Yao, Charles Yang, Truth Qu, Regis Cheng, Ryan Yu, Howard Lu, Newton Von, Vincent Chen, Yohann Tang, Maeve Zhang, Ellie Ma, Gody Li, Sage Yang, Lorien Shu, J.W. Gao, Ethan Chen, Colin Ye, Yu Sun, Elise Mon, PS Zhang, Neo Li, Lily Li, James Wang, Ping Yang, Chris Pan, Lucy Liang, Hang Su, Roy Gan, Hao Wang, Qian Wang (X Square Robot Team / 自变量机器人) > 链接:https://arxiv.org/abs/2606.01955 > 开源:https://github.com/X-Square-Robot/wall-x > 核心洞察:语言、视觉、动作天然活在不同时间尺度,强行塞进同一个固定窗口是对物理现实的粗暴简化
---
一、引子:柏拉图式的追问
> "Carve nature at its joints." — after Plato, Phaedrus 265e
两千多年前,柏拉图在《斐德罗篇》中提出:解剖自然应该沿着它的"关节"切下去。不是横冲直撞,而是找到事物天然的分界线。
今天,X Square Robot Team 把这句古老哲学扔进了具身智能的熔炉。
他们发现:当前主流的视觉-语言-动作(VLA)模型,正在犯一个根本性的错误——在错误的时间尺度上学习动作。模型被训练去预测固定长度的动作块(比如接下来1.5秒的每一个控制帧),但语言描述的是语义事件("抓住杯子"),视觉变化是连续动态(场景如何演变),而动作执行在控制级时间尺度(每秒几十到上百帧)。
这三者天然不同,却被硬塞进同一个固定长度窗口。结果?模型学到的不是"如何完成任务",而是"手指每帧挪几毫米"——一种短视的、短程的、缺乏泛化能力的相关拟合。
---
二、问题:粒度错配(Granularity Mismatch)
2.1 现有范式的便利与陷阱
主流 WAM(World Action Model)的训练流程:
视频预训练模型(多模态/视频基础模型)
↓
冻结或部分冻结
↓
接上动作头(action head)
↓
训练:给定当前帧图像 + 指令,预测固定长度动作块
为什么大家都这么做? 方便。固定长度块容易实现、容易批量化、容易评估。
但陷阱是什么? 粒度错配。
| 模态 | 天然时间尺度 | 被强迫成 |
|---|---|---|
| 语言 | 语义事件("抓住杯子") | 固定长度窗口(比如1.5秒) |
| 视觉 | 连续场景动态(逐步演变) | 固定长度窗口 |
| 动作 | 控制级时间(高帧率) | 固定长度窗口 |
2.2 一个直观的例子
让机器人"把桌上的杯子递给我"。
传统方法:
- 模型预测接下来50帧(1.5秒)的每一个手部位置
- 学的是:手指从 (x,y,z) 移动到 (x+Δx, y+Δy, z+Δz)
- 每帧移动几毫米,每帧的 delta 略有不同
WALL-WM 的方法:
- 模型识别事件:"伸手 → 接触杯子 → 抓取 → 抬升 → 递出"
- 每个事件是一个语义原子,有明确边界
- 模型先预演事件结果(世界会如何变化),再生成动作
三、WALL-WM:事件驱动的世界-动作模型
3.1 核心架构:三层设计原则
原则1:几何保留(Geometry Preservation)
不把多模态压缩到单一共享空间。语言、视觉、动作各自保持自己的流形几何(manifold geometry),只在事件边界处对齐。
> 就像翻译不是把英语单词一对一映射到汉语,而是找到语义等价的表达——结构可以不同,意思要对上。
原则2:先验保留(Prior Preservation)
兼容原有视频基础模型的文生图/视频结构,不推翻重训。在保留预训练语义和时间先验的前提下,赋予模型具身能力。
原则3:可执行因果(Executable Causality)
支持任务驱动的可变时长,不被固定时钟限制。事件的长度由物理过程决定,不是由模型架构决定。
3.2 事件驱动的预训练
原子单元:语义事件(Semantic Event)
事件不是人工定义的规则,而是从数据中提取的语义连贯动作片段。比如:
- "伸手接近物体"(从远处到接触前)
- "接触并抓取"(手指闭合的过程)
- "抬升物体"(从桌面到空中)
- "移动物体"(从A点到B点)
- 事件级标注:不是标注"这段视频是抓取",而是标注事件边界和事件描述
- 聚类平衡采样:避免某些事件类型(如"抓取")过度采样,而罕见事件(如"旋转把手")被忽略
- 数据金字塔:从原始视频到事件片段到动作轨迹,层级化组织
事件描述(文本) + 事件视频片段 + 事件动作片段
↓
视频-动作去噪模型训练
↓
模型学会:给定事件描述,预测视频变化和动作轨迹
注意:训练问题的 formulation 本身就在事件层级,不是帧层级。
3.3 双推理模式:灵活与兼容并存
从同一个事件预训练的 backbone,支持两种推理模式:
模式A:事件模式(Event Mode)
- 输入:下一事件的描述(如"抓住杯子")
- 输出:变长执行块(事件持续多久,动作就生成多久)
- 优势:符合自然任务时长,不浪费计算,不强行截断或填充
- 输入:当前观察 + 指令(传统VLA格式)
- 输出:固定长度动作块(兼容传统范式)
- 关键技术:阶梯解码(Staircase Decoding)
3.4 阶梯解码(Staircase Decoding)
这是统一模式的核心技术。
问题:如果直接用事件 backbone 生成固定长度块,梯度路径不连续——事件级和块级之间存在断层。
阶梯解码的解法:
VLM 生成事件结构的隐推理(隐式计划)
↓
阶梯式 relay:保持梯度连续
↓
局部动作块生成(固定长度)
就像造房子:
- 事件模式:直接给你一个完整房间(按需大小)
- 统一模式:先给你一个建筑蓝图(事件结构),然后按固定模块化方式搭建(固定长度块),但蓝图和模块之间有连续的"楼梯"连接,不是断层
---
四、技术基础设施:规模化训练
4.1 Muon 优化器
论文使用 Muon 优化器进行大规模预训练。Muon 是一种矩阵正交化的优化器,在处理大规模参数时比 Adam 更稳定,尤其在 Transformer 架构上。
4.2 分布式训练系统
配套完整的分布式训练基础设施,支持:
- 跨行为(抓取、放置、推动、旋转...)
- 跨场景(厨房、客厅、实验室、工厂...)
- 跨任务(操作、导航、装配...)
4.3 数据金字塔
从原始视频到可用训练数据的完整pipeline:
原始视频(多视角、多机器人)
↓
事件分割(自动/半自动)
↓
事件标注(描述 + 边界)
↓
动作轨迹对齐(视觉-动作同步)
↓
聚类平衡采样(数据均衡)
↓
训练批次
---
五、实验结果:SOTA 与泛化
5.1 性能指标
论文报告在以下方面实现 SOTA:
- 操作任务性能:真实机器人操作成功率
- 视频生成质量:具身视频生成指标(Embodied Video Generation)
- 大规模真实世界泛化:跨指令、跨场景、跨任务
- 在 Embodied Video Generation 基准上,动作质量、语义一致性、物理合理性全面超越 Wan2.1 等模型
- 在真机 Core15 L1 任务中,基础任务、推理任务、泛化场景的完成分数显著优于 π0.5 和 DreamZero
5.2 泛化能力
WALL-WM 的核心优势不是单点指标,而是泛化:
- 跨语言:不同指令表述方式
- 跨场景:不同环境、光照、背景
- 跨任务:从简单抓取到复杂多步操作
---
六、为什么是"事件"?
6.1 事件 vs 帧:哲学层面的差异
| 维度 | 帧级学习 | 事件级学习 |
|---|---|---|
| 学习对象 | 像素级运动模式 | 语义因果结构 |
| 泛化基础 | 统计相关性(特定场景) | 物理原理(跨场景) |
| 时间表示 | 固定时钟(人工设定) | 语义时长(物理决定) |
| 可解释性 | 黑盒(一堆数字) | 结构化(事件序列) |
| 与语言对齐 | 差(语言说"抓取",模型学的是像素位移) | 好(语言说"抓取",模型学的就是抓取) |
| 组合性 | 弱(每帧独立) | 强(事件可组合成复杂任务) |
6.2 事件是物理的"关节"
回到柏拉图的比喻:自然界有天然的"关节"——事件就是物理世界的时间关节。
- 物体从静止到运动,是一个事件边界(因果变化点)
- 手从空中到接触物体,是一个事件边界(接触事件)
- 从抓握到释放,是一个事件边界(状态转换)
---
七、对具身智能领域的意义
7.1 范式转变:从 Chunk-Centric 到 Event-Grounded
WALL-WM 代表了一个范式层面的转变:
- 之前:动作块是基本单元,世界是连续流的背景
- 现在:事件是基本单元,动作是事件的执行结果
7.2 对预训练模型的友好性
WALL-WM 不需要推翻重训视频预训练模型。它保留了原有模型的语义和时间结构,只是重新组织了训练数据和学习目标。这意味着:
- 现有视频基础模型(如 Sora、Wan2.1、Qwen-Image)可以直接迁移
- 不需要从头训练巨大的视频模型
- 只需要重新组织数据标注和训练 pipeline
7.3 对工业界的启示
对于部署机器人系统的团队:
- 数据标注策略:从"帧级标注"转向"事件级标注"
- 训练 pipeline:考虑事件分割和聚类平衡采样
- 推理部署:根据需求选择事件模式(灵活)或统一模式(兼容)
- 泛化能力:如果需要在不同场景部署同一模型,事件级学习比帧级学习更可靠
八、开源生态
X Square Robot Team 已经开源了 WALL 系列模型:
- WALL-OSS-0.5:4B 参数,零样本真实机器人操作能力
- WALL-OSS-FLOW-0.1:流匹配动作分支
- WALL-OSS-FAST:FAST 动作分支
- 代码仓库:https://github.com/X-Square-Robot/wall-x
- 包含 LeRobot 数据准备 pipeline
- 模型配置
- 流匹配和 FAST 动作分支
- 真实/模拟机器人评估工具
- WALL-WM 代码(论文中提到"Code coming soon")
- WALL-OSS-0.5 的完整训练代码
九、局限与未解问题
9.1 事件分割的准确性
事件驱动的前提是准确分割事件。如果事件边界切错了(比如把"接触"和"抓取"混在一起),模型会学到错误的因果。自动事件分割的准确性,直接决定了整个框架的上限。
9.2 事件粒度的选择
多细的事件算一个事件?"伸手"是一个事件,还是"伸手 → 张开手指 → 接近"是三个事件?粒度太粗,信息丢失;粒度太细,又回到帧级问题。最优粒度可能是任务相关的。
9.3 与现有生态的兼容性
统一模式通过阶梯解码兼容固定长度块,但兼容层本身有代价。如果大多数现有系统都用固定长度块,事件模式的优势能否被充分利用?
9.4 事件级标注的成本
相比帧级标注("这帧是抓取"),事件级标注需要理解语义边界,人工成本更高。半自动/自动标注工具的准确性是关键。
9.5 长程任务的组合性
事件可以组合成复杂任务(A→B→C),但长程任务的事件依赖关系(C 依赖于 A 的特定执行方式)如何建模?简单的线性事件序列可能不够。
---
十、结论
WALL-WM 的核心贡献:在事件的"关节处"切割世界,让具身智能从逐帧填鸭走向语义理解。
它解决了三个关键问题: 1. 粒度错配:语言、视觉、动作天然不同时间尺度,事件是它们天然的对齐点 2. 先验覆盖:保留视频预训练模型的语义能力,不被动作 shortcut 覆盖 3. 泛化瓶颈:事件级学习比帧级学习更通用,跨场景迁移更可靠
配合双推理模式(事件+统一)、阶梯解码、Muon 优化器、数据金字塔等工程创新,WALL-WM 提供了一个可规模化的通用 WAM 训练配方。
从柏拉图的"切割自然"到 X Square Robot Team 的"事件关节",两千年后的今天,AI 正在学习用最自然的方式理解物理世界——不是逐帧跟踪,而是在意义的转折点处,看见因果。
---
参考来源
- Li S, Yao V, Yang C, et al. WALL-WM: Carving World Action Modeling at the Event Joints. arXiv:2606.01955, 2026.
- X Square Robot Team. WALL Series Open-Source Models. https://github.com/X-Square-Robot/wall-x
- 自变量机器人. 全球首个"事件级预测"具身智能世界模型. 2026-05-29.