Xiaomi-Robotics-0 深度技术解剖
小米开源机器人VLA模型的架构创新与工程实践
---
📋 项目概览
| 属性 | 详情 |
|---|---|
| 发布时间 | 2026年2月12日(雷军微博官宣) |
| 参数规模 | 4.7B(47亿) |
| 架构 | Mixture-of-Transformers (MoT) 混合架构 |
| 底座模型 | Qwen3-VL-4B-Instruct |
| 论文 | arXiv:2602.12684 |
| 开源地址 | github.com/XiaomiRobotics/Xiaomi-Robotics-0 |
| Hugging Face | 已发布预训练权重和微调权重 |
| 定位 | 消费级实时机器人VLA模型 |
一、核心问题:VLA模型的"推理延迟困境"
1.1 行业痛点
当前VLA模型面临一个根本性矛盾:
- 大参数 → 强大理解和泛化能力
- 高延迟 → 无法实时控制机器人
- 推理延迟导致动作"断层"(jerky motions)
- 连续推理步骤之间难以平滑衔接
- 需要昂贵的高端GPU才能运行
1.2 小米的解决思路
Xiaomi-Robotics-0的核心创新:异步执行 + Λ-shape注意力掩码
目标:在消费级显卡(RTX 4090)上实现实时推理
---
二、架构深度解析:MoT(Mixture-of-Transformers)
2.1 整体架构
┌─────────────────────────────────────────────────────────────────────┐
│ Xiaomi-Robotics-0 架构图 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 输入层 │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 观察图像 │ │ 语言指令 │ │ 本体状态 │ │
│ │ (o_t) │ │ (l) │ │ (proprio) │ │
│ └──────┬───────┘ └──────┬───────┘ └──────────────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ VLM 大脑 (Qwen3-VL-4B) │ │
│ │ • 处理视觉和语言输入 │ │
│ │ • 输出 KV Cache │ │
│ │ • 保持常识推理能力 │ │
│ └───────────────────────┬─────────────────────────────────────┘ │
│ │ │
│ ▼ KV Cache │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ DiT 小脑 (16层) │ │
│ │ • 基于Flow Matching生成连续动作 │ │
│ │ • 生成Action Chunk (T=30, 1秒动作) │ │
│ │ • 控制频率:30Hz │ │
│ └───────────────────────┬─────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ 输出:Action Chunk │ │
│ │ [a_t, a_{t+1}, ..., a_{t+T}] 连续动作序列 │ │
│ └─────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────┘
2.2 "大脑+小脑"设计哲学
| 组件 | 功能 | 架构 | 参数量 |
|---|---|---|---|
| VLM(大脑) | 理解指令、感知环境 | Qwen3-VL-4B | ~4B |
| DiT(小脑) | 生成高频连续动作 | 16层Diffusion Transformer | ~0.7B |
| 总计 | - | - | 4.7B |
- VLM和DiT通过KV Cache松耦合
- DiT复用VLM的KV Cache,减少冗余计算
- 两者都是Transformer结构,便于信息传递
2.3 Flow Matching:从扩散模型到流匹配
传统扩散模型(如DDPM)需要数十到数百步去噪,推理太慢。
小米的解决方案:
- 使用Flow Matching技术
- 推理时仅需5步采样
- 直接学习从噪声到动作的连续概率流映射
- 采样步骤减少10-20倍
- 动作生成更平滑连续
- 推理延迟显著降低
三、训练策略:两阶段进化
3.1 第一阶段:跨模态预训练
目标:让模型既会"理解",又会"操作"
预训练数据混合:
├── 跨本体机器人轨迹数据 (Cross-embodiment)
│ └── 多种机器人平台、多种任务
├── 视觉-语言数据 (Vision-Language)
│ └── 防止VLM能力遗忘
└── Action Proposal机制
└── 强制VLM在图像理解时预测动作分布
Action Proposal机制:
- 强制VLM在理解图像的同时,预测多模态动作分布
- 完成特征空间与动作空间的对齐
- 避免"学动作时变笨"的问题
3.2 第二阶段:后训练(Post-training)
目标:解决真机部署的实时性问题
核心技术1:异步执行模式
同步模式(传统):
观察 → 推理 → 执行 → 观察 → 推理 → 执行
[等待] [等待] [运行]
问题:推理延迟导致动作卡顿
异步模式(小米):
观察 → 推理 → 执行
↓
观察 → 推理 → 执行
↓
观察 → 推理 → 执行
优势:推理和执行并行,动作连续流畅
核心技术2:Clean Action Prefix
- 引入上一时刻的动作作为前缀输入
- 保证轨迹连续性
- 问题:容易导致模型"抄近路",简单复制前缀而不是理解视觉信号
解决Clean Action Prefix的副作用:
传统因果注意力掩码(Causal Mask):
只能看到当前位置及之前的信息
容易导致过度依赖Action Prefix
Λ-shape Attention Mask:
强制模型优先关注视觉和语言输入
减少对Action Prefix的过度依赖
形状像希腊字母Λ(Lambda)
效果对比:
- Training RTC(基线异步方法):容易陷入重复动作循环
- Xiaomi-Robotics-0(Λ-shape):有效避免重复失败,响应更敏捷
四、性能表现:仿真+真机双验证
4.1 仿真基准测试(SOTA)
| 基准测试 | 指标 | Xiaomi-Robotics-0 | 对比模型数量 |
|---|---|---|---|
| LIBERO | 平均成功率 | 98.7% | 30个 |
| CALVIN (ABC→D) | 平均连续完成任务数 | 4.75 | 30个 |
| CALVIN (ABCD→D) | 平均连续完成任务数 | 4.80 | 30个 |
| SimplerEnv (Google Robot) | Visual Matching | 85.5% | 30个 |
| Visual Aggregation | 74.7% | 30个 | |
| SimplerEnv (WidowX) | 成功率 | 79.2% | 30个 |
4.2 真机部署测试
测试平台:双臂机器人 硬件要求:NVIDIA RTX 4090(消费级显卡) 推理延迟:80ms 控制频率:30Hz
| 任务 | 对比方法 | Xiaomi-Robotics-0 | 提升 |
|---|---|---|---|
| 积木拆解 | π0.5 | 成功率相当,吞吐量更高 | 最高吞吐量 |
| 叠毛巾 | π0.5 | 1.2 pcs/min | vs 1.0 pcs/min |
- 在叠毛巾任务中,Training RTC方法容易陷入"重复抖动"循环
- Xiaomi-Robotics-0通过Λ-shape Attention Mask有效避免
4.3 VLM能力保持
| 基准测试 | π0 | π0.5 | Xiaomi-Robotics-0 | Qwen3-VL-4B |
|---|---|---|---|---|
| ERQA | 0.0 | - | 40.8 | 40.0 |
| SEED | 0.0 | 21.5 | 78.6 | 78.8 |
| POPE | 0.0 | 0.0 | 88.5 | 89.7 |
| AI2D | 0.0 | 14.4 | 78.7 | 81.6 |
| MMBench | 0.0 | 22.1 | 84.4 | 88.7 |
- π0和π0.5在VLM任务上几乎"归零"(灾难性遗忘)
- Xiaomi-Robotics-0通过混合训练有效保持VLM能力
- 甚至在ERQA上略微超过原始Qwen3-VL
五、技术创新总结
5.1 三大核心创新
| 创新点 | 解决的问题 | 技术方案 |
|---|---|---|
| 异步执行 | 推理延迟导致动作卡顿 | 推理与执行并行化 |
| Λ-shape Attention | 模型过度依赖历史动作 | 强制关注视觉输入 |
| Flow Matching | 扩散模型采样慢 | 5步快速采样 |
5.2 与竞品对比
| 维度 | Xiaomi-Robotics-0 | π0.5 | OpenVLA | Octo |
|---|---|---|---|---|
| 参数 | 4.7B | ~5B | 7B | 27M-93M |
| 架构 | MoT (VLM+DiT) | Flow Matching | Prismatic VLM | Diffusion Transformer |
| 底座 | Qwen3-VL | Gemma | Llama 2 | - |
| 实时性 | ✅ 异步执行 | ❌ 同步 | ❌ 同步 | ⚠️ 较慢 |
| 消费级GPU | ✅ RTX 4090 | ⚠️ 需要优化 | ❌ 较难 | ✅ 可以 |
| VLM保持 | ✅ 优秀 | ❌ 遗忘严重 | ✅ 良好 | - |
| 开源程度 | 代码+权重 | 代码+权重 | 代码+权重 | 代码+权重 |
5.3 工程亮点
1. 消费级硬件优化
- 专门针对RTX 4090优化
- 降低部署门槛,个人开发者可用
- 完全兼容transformers库
- 便于快速集成和微调
- 预训练40k steps (batch 32,768)
- 后训练40k-80k steps (batch 2,048)
六、局限性与未来方向
6.1 当前局限
1. 异步模式精度损失
- 积木拆解任务中,同步模式成功率略高
- 异步模式在需要高精度抓取时略逊
- 30Hz vs Helix的200Hz+
- 对高频控制场景(如快速运动)仍有局限
- 当前主要在双臂操作任务验证
- 人形全身控制尚未展示
6.2 与π0.5的直接对比
| 场景 | π0.5 | Xiaomi-Robotics-0 | 胜出方 |
|---|---|---|---|
| 开放世界泛化 | ✅ 可在全新家庭环境工作 | ❓ 未公开测试 | π0.5 |
| 实时性 | ⚠️ 同步模式 | ✅ 异步模式 | 小米 |
| 消费级部署 | ❌ 需要优化 | ✅ 开箱即用 | 小米 |
| VLM能力 | ❌ 几乎遗忘 | ✅ 有效保持 | 小米 |
| 柔性物体操作 | ✅ 叠衣服成功率90%+ | ✅ 叠毛巾1.2pcs/min | 相当 |
6.3 战略意义
对小米:
- 展示技术实力,吸引开发者生态
- 为小米人形机器人(CyberOne等)铺路
- 消费级定位符合小米"性价比"基因
- 证明VLA模型可以在消费级硬件实时运行
- 异步执行成为解决延迟问题的新范式
- 推动VLA模型从实验室走向家庭
七、快速上手
7.1 安装
pip install torch transformers
# 从Hugging Face下载模型
git clone https://github.com/XiaomiRobotics/Xiaomi-Robotics-0.git
7.2 推理示例
from transformers import AutoModel, AutoTokenizer
# 加载模型
model = AutoModel.from_pretrained("xiaomi-robotics/Xiaomi-Robotics-0")
tokenizer = AutoTokenizer.from_pretrained("xiaomi-robotics/Xiaomi-Robotics-0")
# 准备输入
observation_image = ... # 当前观察图像
instruction = "请把毛巾叠好" # 语言指令
proprio_state = ... # 机器人本体状态
# 推理
action_chunk = model.infer(
image=observation_image,
text=instruction,
proprio=proprio_state
)
# action_chunk: [30, action_dim] - 1秒的动作序列
7.3 微调
# 使用DeepSpeed ZeRO-2进行微调
python train.py \
--model_name xiaomi-robotics/Xiaomi-Robotics-0 \
--batch_size 2048 \
--num_steps 40000 \
--task your_task
---
八、结论
Xiaomi-Robotics-0是首个在消费级GPU上实现实时推理的开源VLA模型,其核心贡献:
1. 工程创新:异步执行 + Λ-shape Attention解决延迟问题 2. 架构设计:MoT架构平衡理解与控制能力 3. 实用导向:针对消费级硬件优化,降低部署门槛
一句话评价:它不是参数最大的,也不是泛化最强的,但可能是最实用的开源VLA模型。
---
参考资源
- 论文:arXiv:2602.12684
- GitHub:github.com/XiaomiRobotics/Xiaomi-Robotics-0
- Hugging Face:huggingface.co/xiaomi-robotics
- 项目主页:xiaomi-robotics-0.github.io
*报告版本:v1.0* *分析时间:2026年3月* *字数:约5,000字*
---
#小米 #XiaomiRobotics0 #VLA #机器人 #具身智能 #开源模型 #MoT架构 #异步执行 #技术解析 #小凯