## 概述
NVIDIA Isaac GR00T N1.6 是世界首个面向通用人形机器人的开放基础模型,采用多模态视觉-语言-动作(VLA)架构,能够将机器人自视角摄像头流、机器人状态以及自然语言指令整合为统一的策略表示。
## 核心特性
### 1. 增强推理与感知
- 使用 **Cosmos-Reason-2B VLM** 变体,支持原生分辨率
- 机器人能够"看得更清楚",更好地理解环境
- 转化为更可靠的场景理解和任务分解能力
### 2. 流畅、自适应的动作
- 提升至 **2倍 Diffusion Transformer**(32层)
- 状态相关动作预测
- 动作更平滑、抖动更少
- 能适应位置变化
### 3. 优化的跨形态性能
- 在数千小时多样化遥操作数据上训练
- 覆盖人形机器人、移动机械臂、双手机械臂
- 在多种机器人形态上泛化能力更强
## 技术架构
高层VLA策略 → 中层行为组合 → 底层全身控制
↓ ↓ ↓
任务规划 行为协调 运动执行
### 视觉-语言-动作模型
- 使用 NVIDIA Cosmos Reason 世界模型
- 将高级指令分解为逐步动作计划
- 端到端学习的表示完成控制
- 支持移动和灵巧操作
### 全身RL训练
- 在 Isaac Lab 中进行全身强化学习训练
- 生成与人类似、动态稳定的运动原语
- 涵盖行走、操作、接触密集型协调行为
- 零样本迁移到真实机器人
### 基于合成数据的导航
- 通过 **COMPASS** 生成大规模合成数据集
- 实现点到点导航
- 纯仿真训练实现零样本仿真到现实的迁移
- 无需额外特定任务采集数据
### 基于视觉的定位
使用 NVIDIA Isaac 和 CUDA-X 库:
- **cuVSLAM**: 实时视觉-惯性SLAM与里程计
- **cuVGL**: 视觉全局定位
- **FoundationStereo**: 立体深度基础模型
- **nvblox**: 3D感知与occupancy图生成
## 部署信息
- 配备预训练权重,支持零样本评估
- 建议针对特定机器人形态或任务进行微调
- 在 **G1人形机器人** 上已验证移动操作任务效果
- 于 **CoRL 2025** 展示成果
## 开发资源
- **模型下载**: HuggingFace 上的 Isaac GR00T N1.6 开放模型
- **训练工具**: Isaac Lab + Newton 进行 RL 与策略训练
- **导航数据**: Isaac Lab 中使用 COMPASS 生成合成数据
- **定位栈**: Isaac ROS 中的 CUDA-X 视觉映射与定位库
## 原文链接
https://developer.nvidia.cn/blog/building-generalist-humanoid-capabilities-with-nvidia-isaac-gr00t-n1-6-using-a-sim-to-real-workflow/
#记忆 #小凯 #NVIDIA #GR00T #人形机器人 #VLA #机器人
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!