具身智能 | 阿里Qwen-Robot三连发：千问家族的"手、脚、脑"

事件时间：2026年6月16日来源：Qwen官方博客 · 原文 https://qwen.ai/blog?id=qwen-robotmanip / qwen-robotworld / qwen-robotnav

---

一、事件本身

阿里巴巴于6月16日发布千问具身智能大模型Qwen-Robot系列——这是千问大模型家族首个完整的具身智能模型系列，包含三个模型：

Qwen-RobotManip（VLA操作模型）—— 给机器人装上"灵巧的手"
Qwen-RobotNav（VLN移动模型）—— 给机器人装上"认路的脚"
Qwen-RobotWorld（世界模型）—— 给机器人装上"会思考的大脑"

三个模型既可单独部署，也能协同运转——为不同形态的机器人提供"通用底座"。

---

二、深度剖析：千问三件套各自解决什么问题？

Qwen-RobotManip：让机器人真正"会动手"。

基础是Qwen-VL视觉-语言-动作（VLA）模型，引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频，构建约 38,100小时预训练语料，覆盖 15种机器人形态。

基准成绩：

LIBERO-Plus：91.4%
RoboTwin-C2R Hard：69.4%
RoboCasa365 Composite-Unseen：SOTA表现

技术亮点：用"对齐"而非"端到端"思路解决机器人操作的可扩展性问题——把任务分解为三个相互对齐的子空间，比直接学动作更可解释、更易迁移。

Qwen-RobotNav：让机器人"去哪都认得路"。

基于Qwen3-VL，在 15.6M样本上训练，统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域。无需修改架构即可在推理时切换任务模式和观察参数。

基准成绩：

VLN-CE RxR成功率：76.5%
HM3Dv2目标导航：75.6%（仅RGB）
EVT-Bench跟踪率：90.0%
NAVSIM PDMS：SOTA

技术亮点：一个模型覆盖五个任务域，意味着部署在工厂、仓库、家庭、自动驾驶车辆上的机器人可以用同一套导航能力——大幅降低工程化和运维成本。

Qwen-RobotWorld：让机器人"理解世界如何运转"。

采用 双流Multimodal Diffusion Transformer（MMDiT） 架构，将Qwen2.5-VL作为动作编码器。语言作为统一动作接口，标准化 500多种动作类别。

核心数据：

4个基准测试取得顶尖成绩
统一 20余种机器人形态
860万跨场景训练对
1300+项操作技能
联合训练操作、自动驾驶、室内导航

技术亮点：MMDiT架构 + 语言接口，让机器人可以用自然语言描述目标动作——这对人类示教（你跟机器人说"把杯子放到桌子的左侧"）和跨机器人迁移（同一指令给机械臂、给人形、给自动驾驶汽车）都极有价值。还支持Scene2Robot人类到机器人转换。

---

三、值得关注的原因

对机器人开发者：

Qwen-Robot三件套同时开源，意味着过去要花一两年自己攒的具身模型栈，现在可以基于Qwen直接微调。这极大降低了中小机器人公司的研发门槛——以前是"自己从头训一个VLA模型"，现在是"在Qwen-RobotManip上加100小时自家数据做领域适配"。

对国内具身智能生态：

通义千问的三连发赶上了一个关键时点：英伟达GR00T、谷歌RT-X、Physical Intelligence π0等海外模型陆续发布，但真正能在中国工业场景落地、需要中文指令接口、面向中国机器人形态的，仍然空白。Qwen-Robot系列如果开源协议友好，会快速成为国产具身机器人的事实标准。

对AI大模型战局：

阿里、字节、腾讯、华为都已布局具身智能。Qwen-Robot三连发把"具身"从单一模型扩展到完整体系（操作 + 导航 + 世界模型），给整个赛道立下了新的产品标杆。

对学界：

三个模型都开放训练数据和评测基准——尤其是RoboTwin-C2R Hard、LIBERO-Plus、NAVSIM PDMS等榜单，给学界提供了直接可比的参考点。这意味着后续论文可以"在同一基准上跑自家模型"做公平比较。

---

四、风险与待观察点

1. 仿真到现实的迁移：基准成绩亮眼不等于真实场景表现。机器人在受控实验室里成功率90%+，到工厂、家庭等非结构化环境往往打骨折。Qwen-Robot真实部署数据有待观察。 2. 机器人形态覆盖：15-20种机器人形态听起来很多，但工业机器人品类千差万别（协作臂、SCARA、Delta、AGV、人形……），真正在某具体机器人上跑通仍需大量适配。 3. 开源协议与商业化：开源协议、是否允许商用、二次分发限制——这些细节决定Qwen-Robot能否真正成为国产机器人的"标准底座"。 4. 与世界模型的协同：Manip、Nav、World三个模型声称可协同运转，但实际部署中三个模型间的状态同步、上下文传递、决策冲突解决机制尚未完全公开。 5. 与国际玩家的差距：英伟达GR00T N1、Physical Intelligence π0等海外模型已在更大规模数据上训练，Qwen-Robot三连发需要时间证明其在数据规模和多样性上的竞争力。

---

一句话总结：阿里用"手 + 脚 + 脑"三件套，把具身智能从"单点突破"推向"全栈体系"。Qwen-Robot系列能否成为国产机器人的事实标准，2026下半年是关键观察期。