Xiaomi-Robotics-0 深度技术解剖

小米开源机器人VLA模型的架构创新与工程实践

---

📋 项目概览

属性	详情
发布时间	2026年2月12日（雷军微博官宣）
参数规模	4.7B（47亿）
架构	Mixture-of-Transformers (MoT) 混合架构
底座模型	Qwen3-VL-4B-Instruct
论文	arXiv:2602.12684
开源地址	github.com/XiaomiRobotics/Xiaomi-Robotics-0
Hugging Face	已发布预训练权重和微调权重
定位	消费级实时机器人VLA模型

---

一、核心问题：VLA模型的"推理延迟困境"

1.1 行业痛点

当前VLA模型面临一个根本性矛盾：

大参数 → 强大理解和泛化能力
高延迟 → 无法实时控制机器人

具体表现：

推理延迟导致动作"断层"（jerky motions）
连续推理步骤之间难以平滑衔接
需要昂贵的高端GPU才能运行

1.2 小米的解决思路

Xiaomi-Robotics-0的核心创新：异步执行 + Λ-shape注意力掩码

目标：在消费级显卡（RTX 4090）上实现实时推理

---

二、架构深度解析：MoT（Mixture-of-Transformers）

2.1 整体架构

┌─────────────────────────────────────────────────────────────────────┐
│                    Xiaomi-Robotics-0 架构图                          │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│   输入层                                                             │
│   ┌──────────────┐    ┌──────────────┐    ┌──────────────┐         │
│   │  观察图像    │    │  语言指令    │    │  本体状态    │         │
│   │  (o_t)       │    │  (l)         │    │  (proprio)   │         │
│   └──────┬───────┘    └──────┬───────┘    └──────────────┘         │
│          │                   │                                      │
│          ▼                   ▼                                      │
│   ┌─────────────────────────────────────────────────────────────┐  │
│   │                    VLM 大脑 (Qwen3-VL-4B)                     │  │
│   │  • 处理视觉和语言输入                                          │  │
│   │  • 输出 KV Cache                                              │  │
│   │  • 保持常识推理能力                                            │  │
│   └───────────────────────┬─────────────────────────────────────┘  │
│                           │                                         │
│                           ▼  KV Cache                               │
│   ┌─────────────────────────────────────────────────────────────┐  │
│   │                    DiT 小脑 (16层)                            │  │
│   │  • 基于Flow Matching生成连续动作                              │  │
│   │  • 生成Action Chunk (T=30, 1秒动作)                          │  │
│   │  • 控制频率：30Hz                                            │  │
│   └───────────────────────┬─────────────────────────────────────┘  │
│                           │                                         │
│                           ▼                                         │
│   ┌─────────────────────────────────────────────────────────────┐  │
│   │                    输出：Action Chunk                          │  │
│   │         [a_t, a_{t+1}, ..., a_{t+T}] 连续动作序列              │  │
│   └─────────────────────────────────────────────────────────────┘  │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

2.2 "大脑+小脑"设计哲学

组件	功能	架构	参数量
VLM（大脑）	理解指令、感知环境	Qwen3-VL-4B	~4B
DiT（小脑）	生成高频连续动作	16层Diffusion Transformer	~0.7B
总计	-	-	4.7B

关键设计：

VLM和DiT通过KV Cache松耦合
DiT复用VLM的KV Cache，减少冗余计算
两者都是Transformer结构，便于信息传递

2.3 Flow Matching：从扩散模型到流匹配

传统扩散模型（如DDPM）需要数十到数百步去噪，推理太慢。

小米的解决方案：

使用Flow Matching技术
推理时仅需5步采样
直接学习从噪声到动作的连续概率流映射

优势：

采样步骤减少10-20倍
动作生成更平滑连续
推理延迟显著降低

---

三、训练策略：两阶段进化

3.1 第一阶段：跨模态预训练

目标：让模型既会"理解"，又会"操作"

预训练数据混合：
├── 跨本体机器人轨迹数据 (Cross-embodiment)
│   └── 多种机器人平台、多种任务
├── 视觉-语言数据 (Vision-Language)
│   └── 防止VLM能力遗忘
└── Action Proposal机制
    └── 强制VLM在图像理解时预测动作分布

Action Proposal机制：

强制VLM在理解图像的同时，预测多模态动作分布
完成特征空间与动作空间的对齐
避免"学动作时变笨"的问题

3.2 第二阶段：后训练（Post-training）

目标：解决真机部署的实时性问题

核心技术1：异步执行模式

同步模式（传统）：
观察 → 推理 → 执行 → 观察 → 推理 → 执行
[等待]   [等待]   [运行]
问题：推理延迟导致动作卡顿

异步模式（小米）：
观察 → 推理 → 执行
         ↓
        观察 → 推理 → 执行
                 ↓
                观察 → 推理 → 执行
优势：推理和执行并行，动作连续流畅

核心技术2：Clean Action Prefix

引入上一时刻的动作作为前缀输入
保证轨迹连续性
问题：容易导致模型"抄近路"，简单复制前缀而不是理解视觉信号

核心技术3：Λ-shape Attention Mask

解决Clean Action Prefix的副作用：

传统因果注意力掩码（Causal Mask）：
只能看到当前位置及之前的信息
容易导致过度依赖Action Prefix

Λ-shape Attention Mask：
强制模型优先关注视觉和语言输入
减少对Action Prefix的过度依赖
形状像希腊字母Λ（Lambda）

效果对比：

Training RTC（基线异步方法）：容易陷入重复动作循环
Xiaomi-Robotics-0（Λ-shape）：有效避免重复失败，响应更敏捷

---

四、性能表现：仿真+真机双验证

4.1 仿真基准测试（SOTA）

基准测试	指标	Xiaomi-Robotics-0	对比模型数量
LIBERO	平均成功率	98.7%	30个
CALVIN (ABC→D)	平均连续完成任务数	4.75	30个
CALVIN (ABCD→D)	平均连续完成任务数	4.80	30个
SimplerEnv (Google Robot)	Visual Matching	85.5%	30个
	Visual Aggregation	74.7%	30个
SimplerEnv (WidowX)	成功率	79.2%	30个

4.2 真机部署测试

测试平台：双臂机器人 硬件要求：NVIDIA RTX 4090（消费级显卡） 推理延迟：80ms 控制频率：30Hz

任务	对比方法	Xiaomi-Robotics-0	提升
积木拆解	π0.5	成功率相当，吞吐量更高	最高吞吐量
叠毛巾	π0.5	1.2 pcs/min	vs 1.0 pcs/min

关键发现：

在叠毛巾任务中，Training RTC方法容易陷入"重复抖动"循环
Xiaomi-Robotics-0通过Λ-shape Attention Mask有效避免

4.3 VLM能力保持

基准测试	π0.5	Xiaomi-Robotics-0	Qwen3-VL-4B
ERQA	-	40.8	40.0
SEED	21.5	78.6	78.8
POPE	0.0	88.5	89.7
AI2D	14.4	78.7	81.6
MMBench	22.1	84.4	88.7

重要发现：

π0和π0.5在VLM任务上几乎"归零"（灾难性遗忘）
Xiaomi-Robotics-0通过混合训练有效保持VLM能力
甚至在ERQA上略微超过原始Qwen3-VL

---

五、技术创新总结

5.1 三大核心创新

创新点	解决的问题	技术方案
异步执行	推理延迟导致动作卡顿	推理与执行并行化
Λ-shape Attention	模型过度依赖历史动作	强制关注视觉输入
Flow Matching	扩散模型采样慢	5步快速采样

5.2 与竞品对比

维度	Xiaomi-Robotics-0	π0.5	OpenVLA	Octo
参数	4.7B	~5B	7B	27M-93M
架构	MoT (VLM+DiT)	Flow Matching	Prismatic VLM	Diffusion Transformer
底座	Qwen3-VL	Gemma	Llama 2	-
实时性	✅ 异步执行	❌ 同步	❌ 同步	⚠️ 较慢
消费级GPU	✅ RTX 4090	⚠️ 需要优化	❌ 较难	✅ 可以
VLM保持	✅ 优秀	❌ 遗忘严重	✅ 良好	-
开源程度	代码+权重	代码+权重	代码+权重	代码+权重

5.3 工程亮点

1. 消费级硬件优化

专门针对RTX 4090优化
降低部署门槛，个人开发者可用

2. Hugging Face生态兼容

完全兼容transformers库
便于快速集成和微调

3. 数据效率

预训练40k steps (batch 32,768)
后训练40k-80k steps (batch 2,048)

---

六、局限性与未来方向

6.1 当前局限

1. 异步模式精度损失

积木拆解任务中，同步模式成功率略高
异步模式在需要高精度抓取时略逊

2. 控制频率上限

30Hz vs Helix的200Hz+
对高频控制场景（如快速运动）仍有局限

3. 真机任务范围

当前主要在双臂操作任务验证
人形全身控制尚未展示

6.2 与π0.5的直接对比

场景	π0.5	Xiaomi-Robotics-0	胜出方
开放世界泛化	✅ 可在全新家庭环境工作	❓ 未公开测试	π0.5
实时性	⚠️ 同步模式	✅ 异步模式	小米
消费级部署	❌ 需要优化	✅ 开箱即用	小米
VLM能力	❌ 几乎遗忘	✅ 有效保持	小米
柔性物体操作	✅ 叠衣服成功率90%+	✅ 叠毛巾1.2pcs/min	相当

6.3 战略意义

对小米：

展示技术实力，吸引开发者生态
为小米人形机器人（CyberOne等）铺路
消费级定位符合小米"性价比"基因

对行业：

证明VLA模型可以在消费级硬件实时运行
异步执行成为解决延迟问题的新范式
推动VLA模型从实验室走向家庭

---

七、快速上手

7.1 安装

pip install torch transformers
# 从Hugging Face下载模型
git clone https://github.com/XiaomiRobotics/Xiaomi-Robotics-0.git

7.2 推理示例

from transformers import AutoModel, AutoTokenizer

# 加载模型
model = AutoModel.from_pretrained("xiaomi-robotics/Xiaomi-Robotics-0")
tokenizer = AutoTokenizer.from_pretrained("xiaomi-robotics/Xiaomi-Robotics-0")

# 准备输入
observation_image = ...  # 当前观察图像
instruction = "请把毛巾叠好"  # 语言指令
proprio_state = ...  # 机器人本体状态

# 推理
action_chunk = model.infer(
    image=observation_image,
    text=instruction,
    proprio=proprio_state
)

# action_chunk: [30, action_dim] - 1秒的动作序列

7.3 微调

# 使用DeepSpeed ZeRO-2进行微调
python train.py \
    --model_name xiaomi-robotics/Xiaomi-Robotics-0 \
    --batch_size 2048 \
    --num_steps 40000 \
    --task your_task

---

八、结论

Xiaomi-Robotics-0是首个在消费级GPU上实现实时推理的开源VLA模型，其核心贡献：

1. 工程创新：异步执行 + Λ-shape Attention解决延迟问题 2. 架构设计：MoT架构平衡理解与控制能力 3. 实用导向：针对消费级硬件优化，降低部署门槛

一句话评价：它不是参数最大的，也不是泛化最强的，但可能是最实用的开源VLA模型。

---

参考资源

论文：arXiv:2602.12684
GitHub：github.com/XiaomiRobotics/Xiaomi-Robotics-0
Hugging Face：huggingface.co/xiaomi-robotics
项目主页：xiaomi-robotics-0.github.io

---

*报告版本：v1.0* *分析时间：2026年3月* *字数：约5,000字*

---

#小米 #XiaomiRobotics0 #VLA #机器人 #具身智能 #开源模型 #MoT架构 #异步执行 #技术解析 #小凯