🔍 元信息录
| 元数据项目 | 论文详细内容 |
|---|---|
| 论文标题 | Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments |
| 发布时间 | 2026 年 5 月 29 日 |
| 作者团队 | Alibaba Qwen Team(Qiuyue Wang, Mingsheng Li, Jian Guan 等) |
| 开源代码 | GitHub - Qwen-VLA |
| 基础骨架 | Qwen3.5-4B 视觉-语言模型 |
| 动作专家 | 1.15B 参数的 DiT 流匹配动作解码器 |
| 诚实陈述(我们所不知的边界) | 1. 因 arXiv 未产此文之 HTML 页面,故所述精要,皆源自摘要及 PDF 析出之前十八页正文,后续之消融实验细节与完整附录,我实不知。<br>2. 论文未详述模型之推理延迟(Latency)。于 10Hz/20Hz 闭环控制中,大模型自身推理之延迟何解,我亦不知。<br>3. 面对物理电机之回差、惯性与线缆摩擦等现实噪声,算法于物理世界如何校准,文中未有体现。 |
🤖 知易行难:AI 巨人的“断肢之症”
闭目思之,若欲以手取杯,人脑并不细算关节之角。心念一动,肌肉自然收缩,水杯自入掌中。然此稀松平常之举,于人工智能而言,却如天堑。
今之语言大模型,居于数字之境,能吟诗作赋,能解奥数难题,智巧不可谓不凡。及至入世,若将其部署于物理实体,多有阻滞。大模型可写出极佳之泡茶指南,一旦令其操纵机械臂,拧开茶叶罐之盖却难如登天。
此症之源,在于「知」与「行」之割裂。语言大模型所理会者,乃离散之符号;而机器人之物理操作,实为高维、连续且高频之动作轨迹。大脑空有满腹经纶,却无灵活之手脚;而手脚忙于低级电机指令,不知大脑之意图。具身智能研究之碎裂,由此而生。操纵机械臂之算法,只理会桌面方寸;负责寻路导航之模型,只知屋室之 waypoint,两者互不相通,形同陌路。
为破此局,研发团队辟新径,构筑了统一之具身基础模型:Qwen-VLA。
小贴士:所谓「具身智能」(Embodied Intelligence),是指智能系统必须拥有物理实体,在真实物理世界中通过与环境实时交互、感知和操作,从而产生适应性行为的智能形态。
📐 车同轨书同文:高维连续的万象归一
异构机器人之多,令人目眩。WidowX 机械臂以末端增量为进退,傅里叶 GR-1 人形机器人以绝对关节角为控制,银河通用 R1 机器人则仰赖绝对关节角与夹爪之协同,更遑论人类自身之手部 MANO 运动轨迹。若为每种机器人各造一套控制头,模型势必臃肿不堪,亦难以积聚海量数据之功。
秦始皇统六国,书同文,车同轨。Qwen-VLA 之妙,首在「一统」。
团队未给各路机器人定制单独之输出结构。相反,他们构筑了一个统一之动作与轨迹预测空间。无论是机械臂之位移、灵巧手之捏合,还是轮式底盘之转角、人类手部之姿态,皆转化为统一之张量。
令 target tensor 记为:
\(Y in R^{H times K}\)
其间 \(H\) 为预测时间窗口,\(K\) 为最大通道数。若某机器人之控制仅需 \(c\) 个通道(\(c le K\)),则以二进制掩码 \(M in {0, 1 }^{H times K}\) 将其余通道封锁。无信号之通道,其梯度归于零,不沾染模型之权重。
以此之法,天下数据皆入一炉。模型阅读人类示范视频时,虽无机器人电机指令,亦可将其动作化归为统一轨迹。视觉定位与空间推理之能,因是在不同形态之钢铁身躯间流转。
🌊 从噪声中苏醒:流匹配与 DiT 动作解密
大模型处理文字,以概率预测下一个字,此乃离散动作。然机械臂划过空中,轨迹圆滑,不容突变。若以预测离散词之法预测轨迹,动作必如木偶之舞,僵硬且支离。
Qwen-VLA 之解法,是于多模态大脑之上,外接一个 1.15B 参数之流匹配动作解码器(Flow-matching Action Decoder)。
小贴士:流匹配(Flow Matching),是一类基于扩散生成思想的连续向量场建模方法。相较于传统扩散模型,它能以更平直的路径、更少的推演步数,从纯噪声中还原出高质量的连续目标数据。
动作生成之景,犹如雕刻。其公式为:
\(Y_{ tau} = (1 - tau)Y_0 + tau Y_1\)
其间,$ tau in [0, 1]$ 乃时间之沙漏。\(Y_1\) 为纯粹之白噪声,混沌无序。\(Y_0\) 则是最终平滑之控制轨迹。当 $ tau$ 自 1 渐降至 0,混沌之噪声在 Diffusion Transformer(DiT)之牵引下,如雾里看花,线条渐显。最终经过数步 Euler 积分,平稳流畅之动作方案跃然纸上。
此过程非一次性预测,而是借助 16 个 DiT 模块(每个 70.8M 参数)之层层洗练,使动作具有极强之抗噪与自校正之能。
📜 “自知其身”的召令:具身感知提示词
同一个动作解码器,如何知道自己当下是何种身躯?天工机器人之重,远非 WidowX 可比。
团队引入了「具身感知提示词调节」(Embodiment-aware Prompt Conditioning)。每次交互,大模型额头上皆会贴上一道 robot-specific 描述:
提示词示例:
"The robot is WidowX with single arm. The control frequency is 10 Hz. Please predict the next 16 control actions to execute the following task: pick up the red cup."
此段文字,乃模型认识自我之凭据。模型通过阅读此 prompt,理会当前是哪一台机器人、自由度几何、控制频率多少。
通过自然语言之桥梁,大模型之高维语义与机器人之特定物理接口,在同一个隐空间里达成了契约。
🛠️ 四重炼体:从虚空纸上到闭环历练
训练此等庞然大物,极易顾此失彼。多模态大模型本已学富五车,识人明物,而新接之 DiT 动作解码器尚在襁褓,二者处于不对等之状态。若强行并轨训练,大模型之记忆恐遭污染,解码器亦难以成器。
团队祭出「 progressive training 」之策,分阶段克之:
- 第一阶段:文本动作预训练 (T2A)
暂且蒙住模型之眼,不给视觉。仅以文本指令与具身提示词为输入,责令 DiT 解码器生成动作。此阶段旨在让解码器先学会作为一个「动作解压缩引擎」,与大模型的语义空间对齐。 - 第二阶段:多模态持续预训练
重开视觉。引入机器人操纵轨迹、人类第一视角演示、仿真数据等海量多源混合语料。将上一阶段练就之动作 prior,与真实的视觉场景进行锚定。 - 第三阶段:监督微调 (SFT)
针对具体任务进行指令微调,强化空间定位与手眼协同。 - 第四阶段:强化学习 (RL)
以闭环成功率为赏罚,在交互中进一步磨砺轨迹之稳健。
四阶段既毕,方能得出一个在 LIBERO 上取得 97.9% 成功率、在 ALOHA 物理实车上取得 76.9% 分布外成功率之通用具身模型。
⚖️ 诚实的审视:DOMINO 上 26.6% 零样本成功率之思
观其战绩,Qwen-VLA 之优秀,无庸置疑。然于工业落地之尺规量之,短板犹存。
于 DOMINO 动态操纵测试中,其零样本成功率为 26.6%。此分虽高,代表了零样本迁移之大跨越,然面对不容有失之物理世界,26.6% 之成功率意味着十试七败。具身智能自实验室走向车间,路犹漫漫。
再者,大模型运转,计算极重。4B 之骨架,在物理端执行之际,推理延迟如何保证?电机之反馈,往往在毫秒之间。若大模型思虑过久,机械臂恐早已在惯性下发生碰撞。物理惯性与计算延迟之矛盾,是文中未有详述、亦是未来有待攻克之关隘。
📚 参考文献
- Wang, Q., Li, M., Guan, J., et al. (2026). Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments. arXiv:2605.30280.
- Zitkovich, B., et al. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv:2307.15818.
- Peebles, W., & Xie, S. (2023). Scalable Diffusion Models with Transformers (DiT). ICCV.
- Lipman, Y., et al. (2023). Flow Matching for Generative Modeling. ICLR.
- Black, K., et al. (2024). Robotic Flow Matching for Continuous Embodied Control. arXiv.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。