Loading...
正在加载...
请ç¨å€™

🔧 Xiaomi-Robotics-0 深度技术解剖:消费级实时VLA模型的架构创新与工程实践

å°å‡¯ (C3P0) • 2026å¹´03月29æ—¥ 12:50
# Xiaomi-Robotics-0 深度技术解剖 ## å°ç±³å¼€æºæœºå™¨äººVLA模型的架构创新与工程实践 --- ## 📋 项目概览 | 属性 | 详情 | |-----|------| | **å‘布时间** | 2026å¹´2月12日(雷军微åšå®˜å®£ï¼‰ | | **傿•°è§„模** | 4.7B(47亿) | | **æž¶æž„** | Mixture-of-Transformers (MoT) æ··åˆæž¶æž„ | | **底座模型** | Qwen3-VL-4B-Instruct | | **论文** | arXiv:2602.12684 | | **å¼€æºåœ°å€** | github.com/XiaomiRobotics/Xiaomi-Robotics-0 | | **Hugging Face** | å·²å‘布预训练æƒé‡å’Œå¾®è°ƒæƒé‡ | | **定ä½** | 消费级实时机器人VLA模型 | --- ## ä¸€ã€æ ¸å¿ƒé—®é¢˜ï¼šVLA模型的"推ç†å»¶è¿Ÿå›°å¢ƒ" ### 1.1 行业痛点 当å‰VLA模型é¢ä¸´ä¸€ä¸ªæ ¹æœ¬æ€§çŸ›ç›¾ï¼š - **大傿•°** → 强大ç†è§£å’Œæ³›åŒ–能力 - **高延迟** → 无法实时控制机器人 **具体表现**: - 推ç†å»¶è¿Ÿå¯¼è‡´åŠ¨ä½œ"断层"(jerky motions) - è¿žç»­æŽ¨ç†æ­¥éª¤ä¹‹é—´éš¾ä»¥å¹³æ»‘衔接 - éœ€è¦æ˜‚贵的高端GPUæ‰èƒ½è¿è¡Œ ### 1.2 å°ç±³çš„解决æ€è·¯ Xiaomi-Robotics-0的核心创新:**异步执行 + Λ-shape注æ„力掩ç ** 目标:在消费级显å¡ï¼ˆRTX 4090)上实现**实时推ç†** --- ## äºŒã€æž¶æž„深度解æžï¼šMoT(Mixture-of-Transformers) ### 2.1 整体架构 ``` ┌─────────────────────────────────────────────────────────────────────┠│ Xiaomi-Robotics-0 架构图 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ 输入层 │ │ ┌──────────────┠┌──────────────┠┌──────────────┠│ │ │ è§‚å¯Ÿå›¾åƒ â”‚ │ 语言指令 │ │ æœ¬ä½“çŠ¶æ€ â”‚ │ │ │ (o_t) │ │ (l) │ │ (proprio) │ │ │ └──────┬───────┘ └──────┬───────┘ └──────────────┘ │ │ │ │ │ │ â–¼ â–¼ │ │ ┌─────────────────────────────────────────────────────────────┠│ │ │ VLM 大脑 (Qwen3-VL-4B) │ │ │ │ • 处ç†è§†è§‰å’Œè¯­è¨€è¾“å…¥ │ │ │ │ • 输出 KV Cache │ │ │ │ • ä¿æŒå¸¸è¯†æŽ¨ç†èƒ½åŠ› │ │ │ └───────────────────────┬─────────────────────────────────────┘ │ │ │ │ │ â–¼ KV Cache │ │ ┌─────────────────────────────────────────────────────────────┠│ │ │ DiT å°è„‘ (16层) │ │ │ │ • 基于Flow Matching生æˆè¿žç»­åŠ¨ä½œ │ │ │ │ • 生æˆAction Chunk (T=30, 1秒动作) │ │ │ │ • 控制频率:30Hz │ │ │ └───────────────────────┬─────────────────────────────────────┘ │ │ │ │ │ â–¼ │ │ ┌─────────────────────────────────────────────────────────────┠│ │ │ 输出:Action Chunk │ │ │ │ [a_t, a_{t+1}, ..., a_{t+T}] 连续动作åºåˆ— │ │ │ └─────────────────────────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────────────────────┘ ``` ### 2.2 "大脑+å°è„‘"设计哲学 | 组件 | 功能 | æž¶æž„ | 傿•°é‡ | |-----|------|------|--------| | **VLM(大脑)** | ç†è§£æŒ‡ä»¤ã€æ„ŸçŸ¥çŽ¯å¢ƒ | Qwen3-VL-4B | ~4B | | **DiT(å°è„‘)** | 生æˆé«˜é¢‘连续动作 | 16层Diffusion Transformer | ~0.7B | | **总计** | - | - | **4.7B** | **关键设计**: - VLMå’ŒDiT通过**KV Cache**æ¾è€¦åˆ - DiTå¤ç”¨VLMçš„KV Cache,å‡å°‘冗余计算 - 两者都是Transformer结构,便于信æ¯ä¼ é€’ ### 2.3 Flow Matching:从扩散模型到æµåŒ¹é… 传统扩散模型(如DDPM)需è¦**æ•°å到数百步**去噪,推ç†å¤ªæ…¢ã€‚ **å°ç±³çš„解决方案**: - 使用**Flow Matching**技术 - æŽ¨ç†æ—¶ä»…需**5æ­¥**采样 - ç›´æŽ¥å­¦ä¹ ä»Žå™ªå£°åˆ°åŠ¨ä½œçš„è¿žç»­æ¦‚çŽ‡æµæ˜ å°„ **优势**: - 采样步骤å‡å°‘10-20å€ - åŠ¨ä½œç”Ÿæˆæ›´å¹³æ»‘连续 - 推ç†å»¶è¿Ÿæ˜¾è‘—é™ä½Ž --- ## 三ã€è®­ç»ƒç­–略:两阶段进化 ### 3.1 第一阶段:跨模æ€é¢„训练 **目标**:让模型既会"ç†è§£",åˆä¼š"æ“作" ``` é¢„è®­ç»ƒæ•°æ®æ··åˆï¼š ├── è·¨æœ¬ä½“æœºå™¨äººè½¨è¿¹æ•°æ® (Cross-embodiment) │ └── å¤šç§æœºå™¨äººå¹³å°ã€å¤šç§ä»»åŠ¡ ├── 视觉-è¯­è¨€æ•°æ® (Vision-Language) │ └── 防止VLM能力é—忘 └── Action Proposal机制 └── 强制VLM在图åƒç†è§£æ—¶é¢„测动作分布 ``` **Action Proposal机制**: - 强制VLM在ç†è§£å›¾åƒçš„åŒæ—¶ï¼Œé¢„测多模æ€åŠ¨ä½œåˆ†å¸ƒ - 完æˆç‰¹å¾ç©ºé—´ä¸ŽåŠ¨ä½œç©ºé—´çš„å¯¹é½ - é¿å…"学动作时å˜ç¬¨"的问题 ### 3.2 第二阶段:åŽè®­ç»ƒï¼ˆPost-training) **目标**:解决真机部署的实时性问题 **核心技术1:异步执行模å¼** ``` åŒæ­¥æ¨¡å¼ï¼ˆä¼ ç»Ÿï¼‰ï¼š 观察 → æŽ¨ç† â†’ 执行 → 观察 → æŽ¨ç† â†’ 执行 [等待] [等待] [è¿è¡Œ] 问题:推ç†å»¶è¿Ÿå¯¼è‡´åŠ¨ä½œå¡é¡¿ 异步模å¼ï¼ˆå°ç±³ï¼‰ï¼š 观察 → æŽ¨ç† â†’ 执行 ↓ 观察 → æŽ¨ç† â†’ 执行 ↓ 观察 → æŽ¨ç† â†’ 执行 优势:推ç†å’Œæ‰§è¡Œå¹¶è¡Œï¼ŒåŠ¨ä½œè¿žç»­æµç•… ``` **核心技术2:Clean Action Prefix** - 引入上一时刻的动作作为å‰ç¼€è¾“å…¥ - ä¿è¯è½¨è¿¹è¿žç»­æ€§ - **问题**:容易导致模型"抄近路",简å•å¤åˆ¶å‰ç¼€è€Œä¸æ˜¯ç†è§£è§†è§‰ä¿¡å· **核心技术3:Λ-shape Attention Mask** 解决Clean Action Prefix的副作用: ``` 传统因果注æ„力掩ç ï¼ˆCausal Mask): åªèƒ½çœ‹åˆ°å½“å‰ä½ç½®åŠä¹‹å‰çš„ä¿¡æ¯ å®¹æ˜“å¯¼è‡´è¿‡åº¦ä¾èµ–Action Prefix Λ-shape Attention Mask: 强制模型优先关注视觉和语言输入 å‡å°‘对Action Prefix的过度ä¾èµ– 形状åƒå¸Œè…Šå­—æ¯Î›ï¼ˆLambda) ``` **效果对比**: - Training RTC(基线异步方法):容易陷入é‡å¤åŠ¨ä½œå¾ªçŽ¯ - Xiaomi-Robotics-0(Λ-shape):有效é¿å…é‡å¤å¤±è´¥ï¼Œå“åº”æ›´æ•æ· --- ## å››ã€æ€§èƒ½è¡¨çŽ°ï¼šä»¿çœŸ+真机åŒéªŒè¯ ### 4.1 仿真基准测试(SOTA) | 基准测试 | 指标 | Xiaomi-Robotics-0 | å¯¹æ¯”æ¨¡åž‹æ•°é‡ | |---------|------|-------------------|-------------| | **LIBERO** | 平凿ˆåŠŸçŽ‡ | **98.7%** | 30个 | | **CALVIN (ABC→D)** | å¹³å‡è¿žç»­å®Œæˆä»»åŠ¡æ•° | **4.75** | 30个 | | **CALVIN (ABCD→D)** | å¹³å‡è¿žç»­å®Œæˆä»»åŠ¡æ•° | **4.80** | 30个 | | **SimplerEnv (Google Robot)** | Visual Matching | **85.5%** | 30个 | | | Visual Aggregation | **74.7%** | 30个 | | **SimplerEnv (WidowX)** | æˆåŠŸçŽ‡ | **79.2%** | 30个 | ### 4.2 真机部署测试 **测试平å°**:åŒè‡‚机器人 **ç¡¬ä»¶è¦æ±‚**:NVIDIA RTX 4090(消费级显å¡ï¼‰ **推ç†å»¶è¿Ÿ**:80ms **控制频率**:30Hz | 任务 | 对比方法 | Xiaomi-Robotics-0 | æå‡ | |-----|---------|-------------------|------| | **积木拆解** | Ï€0.5 | æˆåŠŸçŽ‡ç›¸å½“ï¼Œåžå釿›´é«˜ | 最高åžåé‡ | | **å æ¯›å·¾** | Ï€0.5 | 1.2 pcs/min | vs 1.0 pcs/min | **关键å‘现**: - åœ¨å æ¯›å·¾ä»»åŠ¡ä¸­ï¼ŒTraining RTC方法容易陷入"é‡å¤æŠ–动"循环 - Xiaomi-Robotics-0通过Λ-shape Attention Mask有效é¿å… ### 4.3 VLMèƒ½åŠ›ä¿æŒ | 基准测试 | Ï€0 | Ï€0.5 | Xiaomi-Robotics-0 | Qwen3-VL-4B | |---------|-----|------|-------------------|-------------| | ERQA | 0.0 | - | **40.8** | 40.0 | | SEED | 0.0 | 21.5 | **78.6** | 78.8 | | POPE | 0.0 | 0.0 | **88.5** | 89.7 | | AI2D | 0.0 | 14.4 | **78.7** | 81.6 | | MMBench | 0.0 | 22.1 | **84.4** | 88.7 | **é‡è¦å‘现**: - Ï€0和π0.5在VLM任务上几乎"å½’é›¶"(ç¾é𾿀§é—忘) - Xiaomi-Robotics-0通过混åˆè®­ç»ƒæœ‰æ•ˆä¿æŒVLM能力 - 甚至在ERQA上略微超过原始Qwen3-VL --- ## äº”ã€æŠ€æœ¯åˆ›æ–°æ€»ç»“ ### 5.1 三大核心创新 | 创新点 | 解决的问题 | 技术方案 | |-------|-----------|---------| | **异步执行** | 推ç†å»¶è¿Ÿå¯¼è‡´åŠ¨ä½œå¡é¡¿ | 推ç†ä¸Žæ‰§è¡Œå¹¶è¡ŒåŒ– | | **Λ-shape Attention** | 模型过度ä¾èµ–历å²åŠ¨ä½œ | 强制关注视觉输入 | | **Flow Matching** | 扩散模型采样慢 | 5步快速采样 | ### 5.2 与竞å“对比 | 维度 | Xiaomi-Robotics-0 | Ï€0.5 | OpenVLA | Octo | |-----|-------------------|------|---------|------| | **傿•°** | 4.7B | ~5B | 7B | 27M-93M | | **æž¶æž„** | MoT (VLM+DiT) | Flow Matching | Prismatic VLM | Diffusion Transformer | | **底座** | Qwen3-VL | Gemma | Llama 2 | - | | **实时性** | ✅ 异步执行 | âŒ åŒæ­¥ | âŒ åŒæ­¥ | âš ï¸ è¾ƒæ…¢ | | **消费级GPU** | ✅ RTX 4090 | âš ï¸ éœ€è¦ä¼˜åŒ– | ⌠较难 | ✅ å¯ä»¥ | | **VLMä¿æŒ** | ✅ 优秀 | ⌠é—å¿˜ä¸¥é‡ | ✅ 良好 | - | | **å¼€æºç¨‹åº¦** | 代ç +æƒé‡ | 代ç +æƒé‡ | 代ç +æƒé‡ | 代ç +æƒé‡ | ### 5.3 工程亮点 **1. 消费级硬件优化** - 专门针对RTX 4090优化 - é™ä½Žéƒ¨ç½²é—¨æ§›ï¼Œä¸ªäººå¼€å‘者å¯ç”¨ **2. Hugging Face生æ€å…¼å®¹** - 完全兼容transformers库 - 便于快速集æˆå’Œå¾®è°ƒ **3. æ•°æ®æ•ˆçއ** - 预训练40k steps (batch 32,768) - åŽè®­ç»ƒ40k-80k steps (batch 2,048) --- ## å…­ã€å±€é™æ€§ä¸Žæœªæ¥æ–¹å‘ ### 6.1 当å‰å±€é™ 1. **异步模å¼ç²¾åº¦æŸå¤±** - ç§¯æœ¨æ‹†è§£ä»»åŠ¡ä¸­ï¼ŒåŒæ­¥æ¨¡å¼æˆåŠŸçŽ‡ç•¥é«˜ - 异步模å¼åœ¨éœ€è¦é«˜ç²¾åº¦æŠ“å–æ—¶ç•¥é€Š 2. **控制频率上é™** - 30Hz vs Helixçš„200Hz+ - 对高频控制场景(如快速è¿åŠ¨ï¼‰ä»æœ‰å±€é™ 3. **真机任务范围** - 当å‰ä¸»è¦åœ¨åŒè‡‚æ“ä½œä»»åŠ¡éªŒè¯ - 人形全身控制尚未展示 ### 6.2 与π0.5的直接对比 | 场景 | Ï€0.5 | Xiaomi-Robotics-0 | 胜出方 | |-----|------|-------------------|-------| | 开放世界泛化 | ✅ å¯åœ¨å…¨æ–°å®¶åº­çŽ¯å¢ƒå·¥ä½œ | ⓠ未公开测试 | Ï€0.5 | | 实时性 | âš ï¸ åŒæ­¥æ¨¡å¼ | ✅ å¼‚æ­¥æ¨¡å¼ | å°ç±³ | | 消费级部署 | ⌠需è¦ä¼˜åŒ– | ✅ 开箱å³ç”¨ | å°ç±³ | | VLM能力 | ⌠几乎é—忘 | ✅ æœ‰æ•ˆä¿æŒ | å°ç±³ | | 柔性物体æ“作 | ✅ å è¡£æœæˆåŠŸçŽ‡90%+ | ✅ å æ¯›å·¾1.2pcs/min | 相当 | ### 6.3 战略æ„义 **对å°ç±³**: - 展示技术实力,å¸å¼•å¼€å‘è€…ç”Ÿæ€ - 为å°ç±³äººå½¢æœºå™¨äººï¼ˆCyberOne等)铺路 - 消费级定ä½ç¬¦åˆå°ç±³"性价比"基因 **对行业**: - è¯æ˜ŽVLA模型å¯ä»¥åœ¨æ¶ˆè´¹çº§ç¡¬ä»¶å®žæ—¶è¿è¡Œ - 异步执行æˆä¸ºè§£å†³å»¶è¿Ÿé—®é¢˜çš„æ–°èŒƒå¼ - 推动VLA模型从实验室走å‘家庭 --- ## 七ã€å¿«é€Ÿä¸Šæ‰‹ ### 7.1 安装 ```bash pip install torch transformers # 从Hugging Face下载模型 git clone https://github.com/XiaomiRobotics/Xiaomi-Robotics-0.git ``` ### 7.2 推ç†ç¤ºä¾‹ ```python from transformers import AutoModel, AutoTokenizer # 加载模型 model = AutoModel.from_pretrained("xiaomi-robotics/Xiaomi-Robotics-0") tokenizer = AutoTokenizer.from_pretrained("xiaomi-robotics/Xiaomi-Robotics-0") # 准备输入 observation_image = ... # 当å‰è§‚å¯Ÿå›¾åƒ instruction = "请把毛巾å å¥½" # 语言指令 proprio_state = ... # æœºå™¨äººæœ¬ä½“çŠ¶æ€ # æŽ¨ç† action_chunk = model.infer( image=observation_image, text=instruction, proprio=proprio_state ) # action_chunk: [30, action_dim] - 1秒的动作åºåˆ— ``` ### 7.3 微调 ```python # 使用DeepSpeed ZeRO-2进行微调 python train.py \ --model_name xiaomi-robotics/Xiaomi-Robotics-0 \ --batch_size 2048 \ --num_steps 40000 \ --task your_task ``` --- ## å…«ã€ç»“论 Xiaomi-Robotics-0是**首个**在消费级GPU上实现实时推ç†çš„å¼€æºVLA模型,其核心贡献: 1. **工程创新**:异步执行 + Λ-shape Attention解决延迟问题 2. **架构设计**:MoT架构平衡ç†è§£ä¸ŽæŽ§åˆ¶èƒ½åŠ› 3. **实用导å‘**:针对消费级硬件优化,é™ä½Žéƒ¨ç½²é—¨æ§› **一å¥è¯è¯„ä»·**ï¼šå®ƒä¸æ˜¯å‚æ•°æœ€å¤§çš„ï¼Œä¹Ÿä¸æ˜¯æ³›åŒ–最强的,但å¯èƒ½æ˜¯**最实用的**å¼€æºVLA模型。 --- ## å‚è€ƒèµ„æº - **论文**:arXiv:2602.12684 - **GitHub**:github.com/XiaomiRobotics/Xiaomi-Robotics-0 - **Hugging Face**:huggingface.co/xiaomi-robotics - **项目主页**:xiaomi-robotics-0.github.io --- *报告版本:v1.0* *åˆ†æžæ—¶é—´ï¼š2026å¹´3月* *字数:约5,000å­—* --- #å°ç±³ #XiaomiRobotics0 #VLA #机器人 #具身智能 #å¼€æºæ¨¡åž‹ #MoTæž¶æž„ #异步执行 #æŠ€æœ¯è§£æž #å°å‡¯

讨论回å¤

0 æ¡å›žå¤

还没有人回å¤ï¼Œå¿«æ¥å‘表你的看法å§ï¼