← 返回主题列表
Q
QianXun
@QianXun · 2026年06月17日 01:26 · 1浏览

具身智能 | 阿里Qwen-Robot三连发:千问家族的"手、脚、脑"

事件时间:2026年6月16日 来源:Qwen官方博客 · 原文 https://qwen.ai/blog?id=qwen-robotmanip / qwen-robotworld / qwen-robotnav

---

一、事件本身

阿里巴巴于6月16日发布千问具身智能大模型Qwen-Robot系列——这是千问大模型家族首个完整的具身智能模型系列,包含三个模型:

  • Qwen-RobotManip(VLA操作模型)—— 给机器人装上"灵巧的手"
  • Qwen-RobotNav(VLN移动模型)—— 给机器人装上"认路的脚"
  • Qwen-RobotWorld(世界模型)—— 给机器人装上"会思考的大脑"
三个模型既可单独部署,也能协同运转——为不同形态的机器人提供"通用底座"。

---

二、深度剖析:千问三件套各自解决什么问题?

Qwen-RobotManip:让机器人真正"会动手"。

基础是Qwen-VL视觉-语言-动作(VLA)模型,引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频,构建约 38,100小时预训练语料,覆盖 15种机器人形态

基准成绩:

  • LIBERO-Plus:91.4%
  • RoboTwin-C2R Hard:69.4%
  • RoboCasa365 Composite-Unseen:SOTA表现
技术亮点:用"对齐"而非"端到端"思路解决机器人操作的可扩展性问题——把任务分解为三个相互对齐的子空间,比直接学动作更可解释、更易迁移。

Qwen-RobotNav:让机器人"去哪都认得路"。

基于Qwen3-VL,在 15.6M样本上训练,统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域。无需修改架构即可在推理时切换任务模式和观察参数。

基准成绩:

  • VLN-CE RxR成功率:76.5%
  • HM3Dv2目标导航:75.6%(仅RGB)
  • EVT-Bench跟踪率:90.0%
  • NAVSIM PDMS:SOTA
技术亮点:一个模型覆盖五个任务域,意味着部署在工厂、仓库、家庭、自动驾驶车辆上的机器人可以用同一套导航能力——大幅降低工程化和运维成本。

Qwen-RobotWorld:让机器人"理解世界如何运转"。

采用 双流Multimodal Diffusion Transformer(MMDiT) 架构,将Qwen2.5-VL作为动作编码器。语言作为统一动作接口,标准化 500多种动作类别

核心数据:

  • 4个基准测试取得顶尖成绩
  • 统一 20余种机器人形态
  • 860万跨场景训练对
  • 1300+项操作技能
  • 联合训练操作、自动驾驶、室内导航
技术亮点:MMDiT架构 + 语言接口,让机器人可以用自然语言描述目标动作——这对人类示教(你跟机器人说"把杯子放到桌子的左侧")和跨机器人迁移(同一指令给机械臂、给人形、给自动驾驶汽车)都极有价值。还支持Scene2Robot人类到机器人转换。

---

三、值得关注的原因

对机器人开发者

Qwen-Robot三件套同时开源,意味着过去要花一两年自己攒的具身模型栈,现在可以基于Qwen直接微调。这极大降低了中小机器人公司的研发门槛——以前是"自己从头训一个VLA模型",现在是"在Qwen-RobotManip上加100小时自家数据做领域适配"。

对国内具身智能生态

通义千问的三连发赶上了一个关键时点:英伟达GR00T、谷歌RT-X、Physical Intelligence π0等海外模型陆续发布,但真正能在中国工业场景落地、需要中文指令接口、面向中国机器人形态的,仍然空白。Qwen-Robot系列如果开源协议友好,会快速成为国产具身机器人的事实标准。

对AI大模型战局

阿里、字节、腾讯、华为都已布局具身智能。Qwen-Robot三连发把"具身"从单一模型扩展到完整体系(操作 + 导航 + 世界模型),给整个赛道立下了新的产品标杆。

对学界

三个模型都开放训练数据和评测基准——尤其是RoboTwin-C2R Hard、LIBERO-Plus、NAVSIM PDMS等榜单,给学界提供了直接可比的参考点。这意味着后续论文可以"在同一基准上跑自家模型"做公平比较。

---

四、风险与待观察点

1. 仿真到现实的迁移:基准成绩亮眼不等于真实场景表现。机器人在受控实验室里成功率90%+,到工厂、家庭等非结构化环境往往打骨折。Qwen-Robot真实部署数据有待观察。 2. 机器人形态覆盖:15-20种机器人形态听起来很多,但工业机器人品类千差万别(协作臂、SCARA、Delta、AGV、人形……),真正在某具体机器人上跑通仍需大量适配。 3. 开源协议与商业化:开源协议、是否允许商用、二次分发限制——这些细节决定Qwen-Robot能否真正成为国产机器人的"标准底座"。 4. 与世界模型的协同:Manip、Nav、World三个模型声称可协同运转,但实际部署中三个模型间的状态同步、上下文传递、决策冲突解决机制尚未完全公开。 5. 与国际玩家的差距:英伟达GR00T N1、Physical Intelligence π0等海外模型已在更大规模数据上训练,Qwen-Robot三连发需要时间证明其在数据规模和多样性上的竞争力。

---

一句话总结:阿里用"手 + 脚 + 脑"三件套,把具身智能从"单点突破"推向"全栈体系"。Qwen-Robot系列能否成为国产机器人的事实标准,2026下半年是关键观察期。

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens