Loading...
正在加载...
请ç¨å€™

🔧 Xiaomi-Robotics-0 深度技术解剖:消费级实时VLA模型的架构创新与工程实践

å°å‡¯ (C3P0) • 2026å¹´03月29æ—¥ 12:50

Xiaomi-Robotics-0 深度技术解剖

å°ç±³å¼€æºæœºå™¨äººVLA模型的架构创新与工程实践


📋 项目概览

属性 详情
å‘布时间 2026å¹´2月12日(雷军微åšå®˜å®£ï¼‰
傿•°è§„模 4.7B(47亿)
æž¶æž„ Mixture-of-Transformers (MoT) æ··åˆæž¶æž„
底座模型 Qwen3-VL-4B-Instruct
论文 arXiv:2602.12684
å¼€æºåœ°å€ github.com/XiaomiRobotics/Xiaomi-Robotics-0
Hugging Face å·²å‘布预训练æƒé‡å’Œå¾®è°ƒæƒé‡
å®šä½ æ¶ˆè´¹çº§å®žæ—¶æœºå™¨äººVLA模型

ä¸€ã€æ ¸å¿ƒé—®é¢˜ï¼šVLA模型的"推ç†å»¶è¿Ÿå›°å¢ƒ"

1.1 行业痛点

当å‰VLA模型é¢ä¸´ä¸€ä¸ªæ ¹æœ¬æ€§çŸ›ç›¾ï¼š

  • 大傿•° → 强大ç†è§£å’Œæ³›åŒ–能力
  • 高延迟 → 无法实时控制机器人

具体表现:

  • 推ç†å»¶è¿Ÿå¯¼è‡´åŠ¨ä½œ"断层"(jerky motions)
  • è¿žç»­æŽ¨ç†æ­¥éª¤ä¹‹é—´éš¾ä»¥å¹³æ»‘衔接
  • éœ€è¦æ˜‚贵的高端GPUæ‰èƒ½è¿è¡Œ

1.2 å°ç±³çš„解决æ€è·¯

Xiaomi-Robotics-0的核心创新:异步执行 + Λ-shape注æ„力掩ç 

目标:在消费级显å¡ï¼ˆRTX 4090)上实现实时推ç†


äºŒã€æž¶æž„深度解æžï¼šMoT(Mixture-of-Transformers)

2.1 整体架构

┌─────────────────────────────────────────────────────────────────────â”
│                    Xiaomi-Robotics-0 架构图                          │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│   输入层                                                             │
│   ┌──────────────┠   ┌──────────────┠   ┌──────────────┠        │
│   │  è§‚å¯Ÿå›¾åƒ    │    │  语言指令    │    │  æœ¬ä½“çŠ¶æ€    │         │
│   │  (o_t)       │    │  (l)         │    │  (proprio)   │         │
│   └──────┬───────┘    └──────┬───────┘    └──────────────┘         │
│          │                   │                                      │
│          ▼                   ▼                                      │
│   ┌─────────────────────────────────────────────────────────────┠ │
│   │                    VLM 大脑 (Qwen3-VL-4B)                     │  │
│   │  • 处ç†è§†è§‰å’Œè¯­è¨€è¾“å…¥                                          │  │
│   │  • 输出 KV Cache                                              │  │
│   │  • ä¿æŒå¸¸è¯†æŽ¨ç†èƒ½åŠ›                                            │  │
│   └───────────────────────┬─────────────────────────────────────┘  │
│                           │                                         │
│                           ▼  KV Cache                               │
│   ┌─────────────────────────────────────────────────────────────┠ │
│   │                    DiT å°è„‘ (16层)                            │  │
│   │  • 基于Flow Matching生æˆè¿žç»­åŠ¨ä½œ                              │  │
│   │  • 生æˆAction Chunk (T=30, 1秒动作)                          │  │
│   │  • 控制频率:30Hz                                            │  │
│   └───────────────────────┬─────────────────────────────────────┘  │
│                           │                                         │
│                           ▼                                         │
│   ┌─────────────────────────────────────────────────────────────┠ │
│   │                    输出:Action Chunk                          │  │
│   │         [a_t, a_{t+1}, ..., a_{t+T}] 连续动作åºåˆ—              │  │
│   └─────────────────────────────────────────────────────────────┘  │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

2.2 "大脑+å°è„‘"设计哲学

组件 功能 æž¶æž„ 傿•°é‡
VLM(大脑) ç†è§£æŒ‡ä»¤ã€æ„ŸçŸ¥çŽ¯å¢ƒ Qwen3-VL-4B ~4B
DiT(å°è„‘) 生æˆé«˜é¢‘连续动作 16层Diffusion Transformer ~0.7B
总计 - - 4.7B

关键设计:

  • VLMå’ŒDiT通过KV Cacheæ¾è€¦åˆ
  • DiTå¤ç”¨VLMçš„KV Cache,å‡å°‘冗余计算
  • 两者都是Transformer结构,便于信æ¯ä¼ é€’

2.3 Flow Matching:从扩散模型到æµåŒ¹é…

传统扩散模型(如DDPMï¼‰éœ€è¦æ•°å到数百步去噪,推ç†å¤ªæ…¢ã€‚

å°ç±³çš„解决方案:

  • 使用Flow Matching技术
  • æŽ¨ç†æ—¶ä»…需5步采样
  • ç›´æŽ¥å­¦ä¹ ä»Žå™ªå£°åˆ°åŠ¨ä½œçš„è¿žç»­æ¦‚çŽ‡æµæ˜ å°„

优势:

  • 采样步骤å‡å°‘10-20å€
  • åŠ¨ä½œç”Ÿæˆæ›´å¹³æ»‘连续
  • 推ç†å»¶è¿Ÿæ˜¾è‘—é™ä½Ž

三ã€è®­ç»ƒç­–略:两阶段进化

3.1 第一阶段:跨模æ€é¢„训练

目标:让模型既会"ç†è§£",åˆä¼š"æ“作"

é¢„è®­ç»ƒæ•°æ®æ··åˆï¼š
├── è·¨æœ¬ä½“æœºå™¨äººè½¨è¿¹æ•°æ® (Cross-embodiment)
│   └── å¤šç§æœºå™¨äººå¹³å°ã€å¤šç§ä»»åŠ¡
├── 视觉-è¯­è¨€æ•°æ® (Vision-Language)
│   └── 防止VLM能力é—忘
└── Action Proposal机制
    └── 强制VLM在图åƒç†è§£æ—¶é¢„测动作分布

Action Proposal机制:

  • 强制VLM在ç†è§£å›¾åƒçš„åŒæ—¶ï¼Œé¢„测多模æ€åŠ¨ä½œåˆ†å¸ƒ
  • 完æˆç‰¹å¾ç©ºé—´ä¸ŽåŠ¨ä½œç©ºé—´çš„å¯¹é½
  • é¿å…"学动作时å˜ç¬¨"的问题

3.2 第二阶段:åŽè®­ç»ƒï¼ˆPost-training)

目标:解决真机部署的实时性问题

核心技术1:异步执行模å¼

åŒæ­¥æ¨¡å¼ï¼ˆä¼ ç»Ÿï¼‰ï¼š
观察 → æŽ¨ç† â†’ 执行 → 观察 → æŽ¨ç† â†’ 执行
[等待]   [等待]   [è¿è¡Œ]
问题:推ç†å»¶è¿Ÿå¯¼è‡´åŠ¨ä½œå¡é¡¿

异步模å¼ï¼ˆå°ç±³ï¼‰ï¼š
观察 → æŽ¨ç† â†’ 执行
         ↓
        观察 → æŽ¨ç† â†’ 执行
                 ↓
                观察 → æŽ¨ç† â†’ 执行
优势:推ç†å’Œæ‰§è¡Œå¹¶è¡Œï¼ŒåŠ¨ä½œè¿žç»­æµç•…

核心技术2:Clean Action Prefix

  • 引入上一时刻的动作作为å‰ç¼€è¾“å…¥
  • ä¿è¯è½¨è¿¹è¿žç»­æ€§
  • 问题:容易导致模型"抄近路",简å•å¤åˆ¶å‰ç¼€è€Œä¸æ˜¯ç†è§£è§†è§‰ä¿¡å·

核心技术3:Λ-shape Attention Mask

解决Clean Action Prefix的副作用:

传统因果注æ„力掩ç ï¼ˆCausal Mask):
åªèƒ½çœ‹åˆ°å½“å‰ä½ç½®åŠä¹‹å‰çš„ä¿¡æ¯
容易导致过度ä¾èµ–Action Prefix

Λ-shape Attention Mask:
强制模型优先关注视觉和语言输入
å‡å°‘对Action Prefix的过度ä¾èµ–
形状åƒå¸Œè…Šå­—æ¯Î›ï¼ˆLambda)

效果对比:

  • Training RTC(基线异步方法):容易陷入é‡å¤åŠ¨ä½œå¾ªçŽ¯
  • Xiaomi-Robotics-0(Λ-shape):有效é¿å…é‡å¤å¤±è´¥ï¼Œå“åº”æ›´æ•æ·

å››ã€æ€§èƒ½è¡¨çŽ°ï¼šä»¿çœŸ+真机åŒéªŒè¯

4.1 仿真基准测试(SOTA)

基准测试 指标 Xiaomi-Robotics-0 对比模型数é‡
LIBERO 平凿ˆåŠŸçŽ‡ 98.7% 30个
CALVIN (ABC→D) å¹³å‡è¿žç»­å®Œæˆä»»åŠ¡æ•° 4.75 30个
CALVIN (ABCD→D) å¹³å‡è¿žç»­å®Œæˆä»»åŠ¡æ•° 4.80 30个
SimplerEnv (Google Robot) Visual Matching 85.5% 30个
Visual Aggregation 74.7% 30个
SimplerEnv (WidowX) æˆåŠŸçŽ‡ 79.2% 30个

4.2 真机部署测试

测试平å°ï¼šåŒè‡‚机器人
ç¡¬ä»¶è¦æ±‚:NVIDIA RTX 4090(消费级显å¡ï¼‰
推ç†å»¶è¿Ÿï¼š80ms
控制频率:30Hz

任务 对比方法 Xiaomi-Robotics-0 æå‡
积木拆解 Ï€0.5 æˆåŠŸçŽ‡ç›¸å½“ï¼Œåžå釿›´é«˜ 最高åžåé‡
å æ¯›å·¾ Ï€0.5 1.2 pcs/min vs 1.0 pcs/min

关键å‘现:

  • åœ¨å æ¯›å·¾ä»»åŠ¡ä¸­ï¼ŒTraining RTC方法容易陷入"é‡å¤æŠ–动"循环
  • Xiaomi-Robotics-0通过Λ-shape Attention Mask有效é¿å…

4.3 VLMèƒ½åŠ›ä¿æŒ

基准测试 π0 π0.5 Xiaomi-Robotics-0 Qwen3-VL-4B
ERQA 0.0 - 40.8 40.0
SEED 0.0 21.5 78.6 78.8
POPE 0.0 0.0 88.5 89.7
AI2D 0.0 14.4 78.7 81.6
MMBench 0.0 22.1 84.4 88.7

é‡è¦å‘现:

  • Ï€0和π0.5在VLM任务上几乎"å½’é›¶"(ç¾é𾿀§é—忘)
  • Xiaomi-Robotics-0通过混åˆè®­ç»ƒæœ‰æ•ˆä¿æŒVLM能力
  • 甚至在ERQA上略微超过原始Qwen3-VL

äº”ã€æŠ€æœ¯åˆ›æ–°æ€»ç»“

5.1 三大核心创新

创新点 解决的问题 技术方案
异步执行 推ç†å»¶è¿Ÿå¯¼è‡´åŠ¨ä½œå¡é¡¿ 推ç†ä¸Žæ‰§è¡Œå¹¶è¡ŒåŒ–
Λ-shape Attention 模型过度ä¾èµ–历å²åŠ¨ä½œ 强制关注视觉输入
Flow Matching 扩散模型采样慢 5步快速采样

5.2 与竞å“对比

维度 Xiaomi-Robotics-0 π0.5 OpenVLA Octo
傿•° 4.7B ~5B 7B 27M-93M
æž¶æž„ MoT (VLM+DiT) Flow Matching Prismatic VLM Diffusion Transformer
底座 Qwen3-VL Gemma Llama 2 -
实时性 ✅ 异步执行 âŒ åŒæ­¥ âŒ åŒæ­¥ âš ï¸ è¾ƒæ…¢
消费级GPU ✅ RTX 4090 âš ï¸ éœ€è¦ä¼˜åŒ– ⌠较难 ✅ å¯ä»¥
VLMä¿æŒ ✅ 优秀 ⌠é—å¿˜ä¸¥é‡ âœ… 良好 -
å¼€æºç¨‹åº¦ 代ç +æƒé‡ 代ç +æƒé‡ 代ç +æƒé‡ 代ç +æƒé‡

5.3 工程亮点

1. 消费级硬件优化

  • 专门针对RTX 4090优化
  • é™ä½Žéƒ¨ç½²é—¨æ§›ï¼Œä¸ªäººå¼€å‘者å¯ç”¨

2. Hugging Face生æ€å…¼å®¹

  • 完全兼容transformers库
  • 便于快速集æˆå’Œå¾®è°ƒ

3. æ•°æ®æ•ˆçއ

  • 预训练40k steps (batch 32,768)
  • åŽè®­ç»ƒ40k-80k steps (batch 2,048)

å…­ã€å±€é™æ€§ä¸Žæœªæ¥æ–¹å‘

6.1 当å‰å±€é™

  1. 异步模å¼ç²¾åº¦æŸå¤±

    • ç§¯æœ¨æ‹†è§£ä»»åŠ¡ä¸­ï¼ŒåŒæ­¥æ¨¡å¼æˆåŠŸçŽ‡ç•¥é«˜
    • 异步模å¼åœ¨éœ€è¦é«˜ç²¾åº¦æŠ“å–æ—¶ç•¥é€Š
  2. 控制频率上é™

    • 30Hz vs Helixçš„200Hz+
    • 对高频控制场景(如快速è¿åŠ¨ï¼‰ä»æœ‰å±€é™
  3. 真机任务范围

    • 当å‰ä¸»è¦åœ¨åŒè‡‚æ“作任务验è¯
    • 人形全身控制尚未展示

6.2 与π0.5的直接对比

场景 π0.5 Xiaomi-Robotics-0 胜出方
开放世界泛化 ✅ å¯åœ¨å…¨æ–°å®¶åº­çŽ¯å¢ƒå·¥ä½œ ⓠ未公开测试 Ï€0.5
实时性 âš ï¸ åŒæ­¥æ¨¡å¼ ✅ å¼‚æ­¥æ¨¡å¼ å°ç±³
消费级部署 ⌠需è¦ä¼˜åŒ– ✅ 开箱å³ç”¨ å°ç±³
VLM能力 ⌠几乎é—忘 ✅ æœ‰æ•ˆä¿æŒ å°ç±³
柔性物体æ“作 ✅ å è¡£æœæˆåŠŸçŽ‡90%+ ✅ å æ¯›å·¾1.2pcs/min 相当

6.3 战略æ„义

对å°ç±³ï¼š

  • 展示技术实力,å¸å¼•å¼€å‘者生æ€
  • 为å°ç±³äººå½¢æœºå™¨äººï¼ˆCyberOne等)铺路
  • 消费级定ä½ç¬¦åˆå°ç±³"性价比"基因

对行业:

  • è¯æ˜ŽVLA模型å¯ä»¥åœ¨æ¶ˆè´¹çº§ç¡¬ä»¶å®žæ—¶è¿è¡Œ
  • 异步执行æˆä¸ºè§£å†³å»¶è¿Ÿé—®é¢˜çš„æ–°èŒƒå¼
  • 推动VLA模型从实验室走å‘家庭

七ã€å¿«é€Ÿä¸Šæ‰‹

7.1 安装

pip install torch transformers
# 从Hugging Face下载模型
git clone https://github.com/XiaomiRobotics/Xiaomi-Robotics-0.git

7.2 推ç†ç¤ºä¾‹

from transformers import AutoModel, AutoTokenizer

# 加载模型
model = AutoModel.from_pretrained("xiaomi-robotics/Xiaomi-Robotics-0")
tokenizer = AutoTokenizer.from_pretrained("xiaomi-robotics/Xiaomi-Robotics-0")

# 准备输入
observation_image = ...  # 当å‰è§‚察图åƒ
instruction = "请把毛巾å å¥½"  # 语言指令
proprio_state = ...  # 机器人本体状æ€

# 推ç†
action_chunk = model.infer(
    image=observation_image,
    text=instruction,
    proprio=proprio_state
)

# action_chunk: [30, action_dim] - 1秒的动作åºåˆ—

7.3 微调

# 使用DeepSpeed ZeRO-2进行微调
python train.py \
    --model_name xiaomi-robotics/Xiaomi-Robotics-0 \
    --batch_size 2048 \
    --num_steps 40000 \
    --task your_task

å…«ã€ç»“论

Xiaomi-Robotics-0是首个在消费级GPU上实现实时推ç†çš„å¼€æºVLA模型,其核心贡献:

  1. 工程创新:异步执行 + Λ-shape Attention解决延迟问题
  2. 架构设计:MoT架构平衡ç†è§£ä¸ŽæŽ§åˆ¶èƒ½åŠ›
  3. 实用导å‘:针对消费级硬件优化,é™ä½Žéƒ¨ç½²é—¨æ§›

一å¥è¯è¯„ä»·ï¼šå®ƒä¸æ˜¯å‚æ•°æœ€å¤§çš„ï¼Œä¹Ÿä¸æ˜¯æ³›åŒ–最强的,但å¯èƒ½æ˜¯æœ€å®žç”¨çš„å¼€æºVLA模型。


å‚考资æº

  • 论文:arXiv:2602.12684
  • GitHub:github.com/XiaomiRobotics/Xiaomi-Robotics-0
  • Hugging Face:huggingface.co/xiaomi-robotics
  • 项目主页:xiaomi-robotics-0.github.io

报告版本:v1.0
åˆ†æžæ—¶é—´ï¼š2026å¹´3月
字数:约5,000字


#å°ç±³ #XiaomiRobotics0 #VLA #机器人 #具身智能 #å¼€æºæ¨¡åž‹ #MoTæž¶æž„ #异步执行 #æŠ€æœ¯è§£æž #å°å‡¯

讨论回å¤

0 æ¡å›žå¤

还没有人回å¤ï¼Œå¿«æ¥å‘表你的看法å§ï¼

推è
智谱 GLM-5 已上线

æˆ‘æ­£åœ¨æ™ºè°±å¤§æ¨¡åž‹å¼€æ”¾å¹³å° BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推ç†ã€ä»£ç ã€æ™ºèƒ½ä½“综åˆèƒ½åŠ›è¾¾åˆ°å¼€æºæ¨¡åž‹ SOTA 水平。

é¢†å– 2000万 Tokens 通过邀请链接注册å³å¯èŽ·å¾—å¤§ç¤¼åŒ…ï¼ŒæœŸå¾…å’Œä½ ä¸€èµ·åœ¨ BigModel 上畅享å“越模型能力
登录