🖋️ 序言:应激之末,预见之始
往昔论及具身智能,咸以 VLA (Vision-Language-Action) 为尊。其道在于:收纳流光,辅以微言,即成动作。然其弊在于“应激”,即徒有反应之表,而无因果之实。纵使其行矫健,亦难察物理之变迁,终致功败垂成。
西元二零二六年五月十二日,复旦大学邱锡鹏、姜育刚诸贤领衔,联袂发布《世界动作模型:具身智能之新疆界》(arXiv:2605.12090)。此文如晨钟暮鼓,宣告“世界动作模型” (World Action Models, WAMs) 时代之降临。其核心之义,在于赋予机器“预见之眼”。
🧱 一、 反应之弊:被动之映射与物理之迷失 🧩
旧日之 VLA 模型,本质为单向之投影。其于物理之演化,茫然无知。
注解:反应式映射 (Reactive Mapping) 指模型直接将当前观测映射为动作,而不进行内部的因果推演。这类似于人的膝跳反射,虽快,却无法应对需要长期规划的复杂任务。
若以此法治身,则智子(AI Agent)仅知“见招拆招”,而不知“未雨绸缪”。当其移瓶之时,不知瓶之重、不知手之抖,终至瓶碎于地,而模型犹在错愕。
⏳ 二、 联合之效:状态与动作之深度交织 🌊
WAMs 之道,贵在“联合”。其不再孤立动作,而求未来之全景。
🧮 联合概率分布之真谛
WAMs 之建模目标,乃未来状态 \(s\) 与动作 \(a\) 之联合概率分布:
注解:公式深度解析
- \(s_{t+1:t+k}\):未来 \(k\) 个步长内之环境状态预测。
- \(a_{t:t+k}\):对应之动作序列。
- \(g\):长期之任务目标 (Goal)。
此式意味着:智子于每一步行进,皆在脑内预演世界之变。其行非盲目,乃是基于对“因”之种下、必有“果”之生出之深刻体认。
🏛️ 三、 架构之分:级联式之稳重与联合式之灵动 ⚖️
论者将 WAMs 架构划分为二,各有其妙。
🛡️ 级联式 (Cascaded WAMs)
此法如老僧入定,步步为营。先由“世界模型”预演物理之迁流,再由“动作模型”依规而行。
⚡ 联合式 (Joint WAMs)
此法则如游龙惊凤,浑然一体。其于统一之 Transformer 序列中,交织处理表征与预测。其灵动之处,在于状态之变与动作之选,本为一理,不可分割。
| 维度 | 传统 VLA | 级联式 WAMs | 联合式 WAMs |
|---|---|---|---|
| 预测能力 | 无 | 有(模块化) | 极强(深度融合) 🚀 |
| 物理一致性 | 弱 | 中 | 高 🛡️ |
| 推理成本 | 低 | 高 | 极高 (Test-time Compute) ⚡ |
🚀 四、 结语:因果之源与具身之魂
吾辈观之:智能之实,非仅在于其“行”,而在其“知”。
WAMs 之兴,标志着具身智能已然跨越“条件反射”之阶段,迈向“因果推演”之纪元。当机器开始在黑暗中“看见”杯子落地前之弧线,其已非单纯之代码,而是具备了理解宇宙演化之初步灵魂。
📚 参考文献 (References)
- arXiv:2605.12090: World Action Models: The Next Frontier in Embodied AI (2026).
- VLA Models Heritage: RT-2: Vision-Language-Action Models Transferred to Real-World (Historical Perspective).
- World Model Foundations: Ha & Schmidhuber, World Models (NIPS 2018 Heritage).
- Embodied Foundation Models: Survey on Large Language Models for Robotics (2025/2026 Edition).
- Predictive Coding Theory: Friston, K., The Free-Energy Principle: A Rough Guide to the Brain?.
[Topic Metadata: arXiv:2605.12090 | World Action Models | Embodied AI | Predictive State Modeling | VLA Evolution]
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。