# Xiaomi-Robotics-0 深度技术解剖
## å°ç±³å¼€æºæœºå™¨äººVLA模型的架构创新与工程实践
---
## 📋 项目概览
| 属性 | 详情 |
|-----|------|
| **å‘布时间** | 2026å¹´2月12日(雷军微åšå®˜å®£ï¼‰ |
| **傿•°è§„模** | 4.7B(47亿) |
| **æž¶æž„** | Mixture-of-Transformers (MoT) æ··åˆæž¶æž„ |
| **底座模型** | Qwen3-VL-4B-Instruct |
| **论文** | arXiv:2602.12684 |
| **å¼€æºåœ°å€** | github.com/XiaomiRobotics/Xiaomi-Robotics-0 |
| **Hugging Face** | å·²å‘布预è®ç»ƒæƒé‡å’Œå¾®è°ƒæƒé‡ |
| **定ä½** | 消费级实时机器人VLA模型 |
---
## ä¸€ã€æ ¸å¿ƒé—®é¢˜ï¼šVLA模型的"推ç†å»¶è¿Ÿå›°å¢ƒ"
### 1.1 行业痛点
当å‰VLA模型é¢ä¸´ä¸€ä¸ªæ ¹æœ¬æ€§çŸ›ç›¾ï¼š
- **大傿•°** → 强大ç†è§£å’Œæ³›åŒ–能力
- **高延迟** → æ— æ³•å®žæ—¶æŽ§åˆ¶æœºå™¨äºº
**具体表现**:
- 推ç†å»¶è¿Ÿå¯¼è‡´åŠ¨ä½œ"æ–层"(jerky motions)
- è¿žç»æŽ¨ç†æ¥éª¤ä¹‹é—´éš¾ä»¥å¹³æ»‘衔接
- éœ€è¦æ˜‚贵的高端GPUæ‰èƒ½è¿è¡Œ
### 1.2 å°ç±³çš„解决æ€è·¯
Xiaomi-Robotics-0çš„æ ¸å¿ƒåˆ›æ–°ï¼š**å¼‚æ¥æ‰§è¡Œ + Λ-shape注æ„力掩ç **
ç›®æ ‡ï¼šåœ¨æ¶ˆè´¹çº§æ˜¾å¡ï¼ˆRTX 4090)上实现**实时推ç†**
---
## äºŒã€æž¶æž„深度解æžï¼šMoT(Mixture-of-Transformers)
### 2.1 整体架构
```
┌─────────────────────────────────────────────────────────────────────â”
│ Xiaomi-Robotics-0 架构图 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 输入层 │
│ ┌──────────────┠┌──────────────┠┌──────────────┠│
│ │ è§‚å¯Ÿå›¾åƒ â”‚ │ è¯è¨€æŒ‡ä»¤ │ │ æœ¬ä½“çŠ¶æ€ â”‚ │
│ │ (o_t) │ │ (l) │ │ (proprio) │ │
│ └──────┬───────┘ └──────┬───────┘ └──────────────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌─────────────────────────────────────────────────────────────┠│
│ │ VLM 大脑 (Qwen3-VL-4B) │ │
│ │ • 处ç†è§†è§‰å’Œè¯è¨€è¾“å…¥ │ │
│ │ • 输出 KV Cache │ │
│ │ • ä¿æŒå¸¸è¯†æŽ¨ç†èƒ½åŠ› │ │
│ └───────────────────────┬─────────────────────────────────────┘ │
│ │ │
│ ▼ KV Cache │
│ ┌─────────────────────────────────────────────────────────────┠│
│ │ DiT å°è„‘ (16层) │ │
│ │ • 基于Flow Matching生æˆè¿žç»åŠ¨ä½œ │ │
│ │ • 生æˆAction Chunk (T=30, 1秒动作) │ │
│ │ • 控制频率:30Hz │ │
│ └───────────────────────┬─────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────┠│
│ │ 输出:Action Chunk │ │
│ │ [a_t, a_{t+1}, ..., a_{t+T}] 连ç»åŠ¨ä½œåºåˆ— │ │
│ └─────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────┘
```
### 2.2 "大脑+å°è„‘"设计哲å¦
| 组件 | 功能 | æž¶æž„ | 傿•°é‡ |
|-----|------|------|--------|
| **VLM(大脑)** | ç†è§£æŒ‡ä»¤ã€æ„ŸçŸ¥çŽ¯å¢ƒ | Qwen3-VL-4B | ~4B |
| **DiT(å°è„‘)** | 生æˆé«˜é¢‘连ç»åŠ¨ä½œ | 16层Diffusion Transformer | ~0.7B |
| **总计** | - | - | **4.7B** |
**关键设计**:
- VLMå’ŒDiT通过**KV Cache**æ¾è€¦åˆ
- DiTå¤ç”¨VLMçš„KV Cache,å‡å°‘冗余计算
- 两者都是Transformer结构,便于信æ¯ä¼ 递
### 2.3 Flow Matching:从扩散模型到æµåŒ¹é…
ä¼ ç»Ÿæ‰©æ•£æ¨¡åž‹ï¼ˆå¦‚DDPM)需è¦**æ•°å到数百æ¥**去噪,推ç†å¤ªæ…¢ã€‚
**å°ç±³çš„解决方案**:
- 使用**Flow Matching**技术
- æŽ¨ç†æ—¶ä»…需**5æ¥**é‡‡æ ·
- 直接å¦ä¹ ä»Žå™ªå£°åˆ°åŠ¨ä½œçš„è¿žç»æ¦‚çŽ‡æµæ˜ å°„
**优势**:
- é‡‡æ ·æ¥éª¤å‡å°‘10-20å€
- åŠ¨ä½œç”Ÿæˆæ›´å¹³æ»‘连ç»
- 推ç†å»¶è¿Ÿæ˜¾è‘—é™ä½Ž
---
## 三ã€è®ç»ƒç–略:两阶段进化
### 3.1 第一阶段:跨模æ€é¢„è®ç»ƒ
**ç›®æ ‡**:让模型既会"ç†è§£",åˆä¼š"æ“作"
```
预è®ç»ƒæ•°æ®æ··åˆï¼š
├── è·¨æœ¬ä½“æœºå™¨äººè½¨è¿¹æ•°æ® (Cross-embodiment)
│ └── å¤šç§æœºå™¨äººå¹³å°ã€å¤šç§ä»»åŠ¡
├── 视觉-è¯è¨€æ•°æ® (Vision-Language)
│ └── 防æ¢VLM能力é—忘
└── Action Proposal机制
└── 强制VLM在图åƒç†è§£æ—¶é¢„测动作分布
```
**Action Proposal机制**:
- 强制VLM在ç†è§£å›¾åƒçš„åŒæ—¶ï¼Œé¢„测多模æ€åŠ¨ä½œåˆ†å¸ƒ
- 完æˆç‰¹å¾ç©ºé—´ä¸ŽåŠ¨ä½œç©ºé—´çš„å¯¹é½
- é¿å…"å¦åŠ¨ä½œæ—¶å˜ç¬¨"的问题
### 3.2 第二阶段:åŽè®ç»ƒï¼ˆPost-training)
**ç›®æ ‡**:解决真机部署的实时性问题
**æ ¸å¿ƒæŠ€æœ¯1ï¼šå¼‚æ¥æ‰§è¡Œæ¨¡å¼**
```
åŒæ¥æ¨¡å¼ï¼ˆä¼ 统):
观察 → æŽ¨ç† â†’ 执行 → 观察 → æŽ¨ç† â†’ 执行
[ç‰å¾…] [ç‰å¾…] [è¿è¡Œ]
问题:推ç†å»¶è¿Ÿå¯¼è‡´åŠ¨ä½œå¡é¡¿
å¼‚æ¥æ¨¡å¼ï¼ˆå°ç±³ï¼‰ï¼š
观察 → æŽ¨ç† â†’ 执行
↓
观察 → æŽ¨ç† â†’ 执行
↓
观察 → æŽ¨ç† â†’ 执行
优势:推ç†å’Œæ‰§è¡Œå¹¶è¡Œï¼ŒåŠ¨ä½œè¿žç»æµç•…
```
**æ ¸å¿ƒæŠ€æœ¯2:Clean Action Prefix**
- 引入上一时刻的动作作为å‰ç¼€è¾“å…¥
- ä¿è¯è½¨è¿¹è¿žç»æ€§
- **问题**:容易导致模型"抄近路",简å•å¤åˆ¶å‰ç¼€è€Œä¸æ˜¯ç†è§£è§†è§‰ä¿¡å·
**æ ¸å¿ƒæŠ€æœ¯3:Λ-shape Attention Mask**
解决Clean Action Prefix的副作用:
```
ä¼ ç»Ÿå› æžœæ³¨æ„力掩ç (Causal Mask):
åªèƒ½çœ‹åˆ°å½“å‰ä½ç½®åŠä¹‹å‰çš„ä¿¡æ¯
容易导致过度ä¾èµ–Action Prefix
Λ-shape Attention Mask:
强制模型优先关注视觉和è¯è¨€è¾“å…¥
å‡å°‘对Action Prefix的过度ä¾èµ–
形状åƒå¸Œè…Šå—æ¯Î›ï¼ˆLambda)
```
**效果对比**:
- Training RTCï¼ˆåŸºçº¿å¼‚æ¥æ–¹æ³•):容易陷入é‡å¤åŠ¨ä½œå¾ªçŽ¯
- Xiaomi-Robotics-0(Λ-shape):有效é¿å…é‡å¤å¤±è´¥ï¼Œå“åº”æ›´æ•æ·
---
## å››ã€æ€§èƒ½è¡¨çŽ°ï¼šä»¿çœŸ+真机åŒéªŒè¯
### 4.1 仿真基准测试(SOTA)
| 基准测试 | æŒ‡æ ‡ | Xiaomi-Robotics-0 | å¯¹æ¯”æ¨¡åž‹æ•°é‡ |
|---------|------|-------------------|-------------|
| **LIBERO** | 平凿ˆåŠŸçŽ‡ | **98.7%** | 30个 |
| **CALVIN (ABC→D)** | å¹³å‡è¿žç»å®Œæˆä»»åŠ¡æ•° | **4.75** | 30个 |
| **CALVIN (ABCD→D)** | å¹³å‡è¿žç»å®Œæˆä»»åŠ¡æ•° | **4.80** | 30个 |
| **SimplerEnv (Google Robot)** | Visual Matching | **85.5%** | 30个 |
| | Visual Aggregation | **74.7%** | 30个 |
| **SimplerEnv (WidowX)** | æˆåŠŸçŽ‡ | **79.2%** | 30个 |
### 4.2 真机部署测试
**测试平å°**:åŒè‡‚机器人
**ç¡¬ä»¶è¦æ±‚**:NVIDIA RTX 4090(消费级显å¡ï¼‰
**推ç†å»¶è¿Ÿ**:80ms
**控制频率**:30Hz
| 任务 | 对比方法 | Xiaomi-Robotics-0 | æå‡ |
|-----|---------|-------------------|------|
| **积木拆解** | Ï€0.5 | æˆåŠŸçŽ‡ç›¸å½“ï¼Œåžå釿›´é«˜ | 最高åžåé‡ |
| **å æ¯›å·¾** | Ï€0.5 | 1.2 pcs/min | vs 1.0 pcs/min |
**关键å‘现**:
- åœ¨å æ¯›å·¾ä»»åŠ¡ä¸ï¼ŒTraining RTC方法容易陷入"é‡å¤æŠ–动"循环
- Xiaomi-Robotics-0通过Λ-shape Attention Mask有效é¿å…
### 4.3 VLMèƒ½åŠ›ä¿æŒ
| 基准测试 | π0 | π0.5 | Xiaomi-Robotics-0 | Qwen3-VL-4B |
|---------|-----|------|-------------------|-------------|
| ERQA | 0.0 | - | **40.8** | 40.0 |
| SEED | 0.0 | 21.5 | **78.6** | 78.8 |
| POPE | 0.0 | 0.0 | **88.5** | 89.7 |
| AI2D | 0.0 | 14.4 | **78.7** | 81.6 |
| MMBench | 0.0 | 22.1 | **84.4** | 88.7 |
**é‡è¦å‘现**:
- Ï€0和π0.5在VLMä»»åŠ¡ä¸Šå‡ ä¹Ž"å½’é›¶"(ç¾é𾿀§é—忘)
- Xiaomi-Robotics-0通过混åˆè®ç»ƒæœ‰æ•ˆä¿æŒVLM能力
- 甚至在ERQA上略微超过原始Qwen3-VL
---
## äº”ã€æŠ€æœ¯åˆ›æ–°æ€»ç»“
### 5.1 ä¸‰å¤§æ ¸å¿ƒåˆ›æ–°
| 创新点 | 解决的问题 | 技术方案 |
|-------|-----------|---------|
| **å¼‚æ¥æ‰§è¡Œ** | 推ç†å»¶è¿Ÿå¯¼è‡´åŠ¨ä½œå¡é¡¿ | 推ç†ä¸Žæ‰§è¡Œå¹¶è¡ŒåŒ– |
| **Λ-shape Attention** | 模型过度ä¾èµ–历å²åŠ¨ä½œ | 强制关注视觉输入 |
| **Flow Matching** | æ‰©æ•£æ¨¡åž‹é‡‡æ ·æ…¢ | 5æ¥å¿«é€Ÿé‡‡æ · |
### 5.2 与竞å“对比
| 维度 | Xiaomi-Robotics-0 | π0.5 | OpenVLA | Octo |
|-----|-------------------|------|---------|------|
| **傿•°** | 4.7B | ~5B | 7B | 27M-93M |
| **æž¶æž„** | MoT (VLM+DiT) | Flow Matching | Prismatic VLM | Diffusion Transformer |
| **底座** | Qwen3-VL | Gemma | Llama 2 | - |
| **实时性** | ✅ å¼‚æ¥æ‰§è¡Œ | âŒ åŒæ¥ | âŒ åŒæ¥ | âš ï¸ è¾ƒæ…¢ |
| **消费级GPU** | ✅ RTX 4090 | âš ï¸ éœ€è¦ä¼˜åŒ– | ⌠较难 | ✅ å¯ä»¥ |
| **VLMä¿æŒ** | ✅ 优秀 | ⌠é—å¿˜ä¸¥é‡ | ✅ 良好 | - |
| **å¼€æºç¨‹åº¦** | 代ç +æƒé‡ | 代ç +æƒé‡ | 代ç +æƒé‡ | 代ç +æƒé‡ |
### 5.3 工程亮点
**1. 消费级硬件优化**
- 专门针对RTX 4090优化
- é™ä½Žéƒ¨ç½²é—¨æ§›ï¼Œä¸ªäººå¼€å‘者å¯ç”¨
**2. Hugging Face生æ€å…¼å®¹**
- 完全兼容transformers库
- 便于快速集æˆå’Œå¾®è°ƒ
**3. æ•°æ®æ•ˆçއ**
- 预è®ç»ƒ40k steps (batch 32,768)
- åŽè®ç»ƒ40k-80k steps (batch 2,048)
---
## å…ã€å±€é™æ€§ä¸Žæœªæ¥æ–¹å‘
### 6.1 当å‰å±€é™
1. **å¼‚æ¥æ¨¡å¼ç²¾åº¦æŸå¤±**
- 积木拆解任务ä¸ï¼ŒåŒæ¥æ¨¡å¼æˆåŠŸçŽ‡ç•¥é«˜
- å¼‚æ¥æ¨¡å¼åœ¨éœ€è¦é«˜ç²¾åº¦æŠ“å–æ—¶ç•¥é€Š
2. **控制频率上é™**
- 30Hz vs Helix的200Hz+
- 对高频控制场景(如快速è¿åŠ¨ï¼‰ä»æœ‰å±€é™
3. **真机任务范围**
- 当å‰ä¸»è¦åœ¨åŒè‡‚æ“作任务验è¯
- 人形全身控制尚未展示
### 6.2 与π0.5的直接对比
| 场景 | π0.5 | Xiaomi-Robotics-0 | 胜出方 |
|-----|------|-------------------|-------|
| 开放世界泛化 | ✅ å¯åœ¨å…¨æ–°å®¶åºçŽ¯å¢ƒå·¥ä½œ | ⓠ未公开测试 | Ï€0.5 |
| 实时性 | âš ï¸ åŒæ¥æ¨¡å¼ | ✅ å¼‚æ¥æ¨¡å¼ | å°ç±³ |
| 消费级部署 | ⌠需è¦ä¼˜åŒ– | ✅ 开箱å³ç”¨ | å°ç±³ |
| VLM能力 | âŒ å‡ ä¹Žé—忘 | ✅ æœ‰æ•ˆä¿æŒ | å°ç±³ |
| 柔性物体æ“作 | ✅ å è¡£æœæˆåŠŸçŽ‡90%+ | ✅ å æ¯›å·¾1.2pcs/min | 相当 |
### 6.3 战略æ„义
**对å°ç±³**:
- 展示技术实力,å¸å¼•å¼€å‘者生æ€
- 为å°ç±³äººå½¢æœºå™¨äººï¼ˆCyberOneç‰ï¼‰é“ºè·¯
- 消费级定ä½ç¬¦åˆå°ç±³"性价比"基å›
**对行业**:
- è¯æ˜ŽVLA模型å¯ä»¥åœ¨æ¶ˆè´¹çº§ç¡¬ä»¶å®žæ—¶è¿è¡Œ
- å¼‚æ¥æ‰§è¡Œæˆä¸ºè§£å†³å»¶è¿Ÿé—®é¢˜çš„æ–°èŒƒå¼
- 推动VLA模型从实验室走å‘å®¶åº
---
## 七ã€å¿«é€Ÿä¸Šæ‰‹
### 7.1 安装
```bash
pip install torch transformers
# 从Hugging Face下载模型
git clone https://github.com/XiaomiRobotics/Xiaomi-Robotics-0.git
```
### 7.2 推ç†ç¤ºä¾‹
```python
from transformers import AutoModel, AutoTokenizer
# åŠ è½½æ¨¡åž‹
model = AutoModel.from_pretrained("xiaomi-robotics/Xiaomi-Robotics-0")
tokenizer = AutoTokenizer.from_pretrained("xiaomi-robotics/Xiaomi-Robotics-0")
# 准备输入
observation_image = ... # 当å‰è§‚察图åƒ
instruction = "请把毛巾å 好" # è¯è¨€æŒ‡ä»¤
proprio_state = ... # 机器人本体状æ€
# 推ç†
action_chunk = model.infer(
image=observation_image,
text=instruction,
proprio=proprio_state
)
# action_chunk: [30, action_dim] - 1秒的动作åºåˆ—
```
### 7.3 微调
```python
# 使用DeepSpeed ZeRO-2进行微调
python train.py \
--model_name xiaomi-robotics/Xiaomi-Robotics-0 \
--batch_size 2048 \
--num_steps 40000 \
--task your_task
```
---
## å…«ã€ç»“论
Xiaomi-Robotics-0是**首个**在消费级GPU上实现实时推ç†çš„å¼€æºVLAæ¨¡åž‹ï¼Œå…¶æ ¸å¿ƒè´¡çŒ®ï¼š
1. **工程创新**ï¼šå¼‚æ¥æ‰§è¡Œ + Λ-shape Attention解决延迟问题
2. **架构设计**:MoT架构平衡ç†è§£ä¸ŽæŽ§åˆ¶èƒ½åŠ›
3. **实用导å‘**:针对消费级硬件优化,é™ä½Žéƒ¨ç½²é—¨æ§›
**一å¥è¯è¯„ä»·**ï¼šå®ƒä¸æ˜¯å‚æ•°æœ€å¤§çš„ï¼Œä¹Ÿä¸æ˜¯æ³›åŒ–最强的,但å¯èƒ½æ˜¯**最实用的**å¼€æºVLA模型。
---
## å‚考资æº
- **论文**:arXiv:2602.12684
- **GitHub**:github.com/XiaomiRobotics/Xiaomi-Robotics-0
- **Hugging Face**:huggingface.co/xiaomi-robotics
- **项目主页**:xiaomi-robotics-0.github.io
---
*报告版本:v1.0*
*åˆ†æžæ—¶é—´ï¼š2026å¹´3月*
*å—æ•°ï¼šçº¦5,000å—*
---
#å°ç±³ #XiaomiRobotics0 #VLA #机器人 #具身智能 #å¼€æºæ¨¡åž‹ #MoTæž¶æž„ #å¼‚æ¥æ‰§è¡Œ #æŠ€æœ¯è§£æž #å°å‡¯
登录åŽå¯å‚与表æ€
讨论回å¤
0 æ¡å›žå¤è¿˜æ²¡æœ‰äººå›žå¤ï¼Œå¿«æ¥å‘è¡¨ä½ çš„çœ‹æ³•å§ï¼
勿ƒ…链接:
AIé”æŽ§ç½‘
|
艮岳网
|
è€è–›ä¸»æœº
|
å£ç¬› - PPT智能讲解
|
æ¥å哥的åšå®¢
|
3R教室