🎯 整体架构
| 阶段 | 工具/框架 | 作用 |
|---|
| 仿真训练 | Isaac Sim / Brax | 虚拟环境中训练策略 |
| 物理验证 | MuJoCo | 验证训练好的模型 |
| 真机部署 | ONNX + 树莓派 | sim2real 迁移 |
📝 训练步骤
1. 准备运动轨迹数据
# 复制多项式系数文件(用于模仿学习奖励)
cp ~/open_duck_mini_ws/Open_Duck_reference_motion_generator/polynomial_coefficients.pkl ~/open_duck_mini_ws/Open_Duck_Playground/playground/open_duck_mini_v2/data/
2. 配置训练参数
# 开启模仿学习奖励
vim ~/open_duck_mini_ws/Open_Duck_Playground/playground/open_duck_mini_v2/joystick.py
# 设置 USE_IMITATION_REWARD=True
3. 启动训练
cd ~/open_duck_mini_ws/Open_Duck_Playground
# 3亿步训练(PPO算法)
uv run playground/open_duck_mini_v2/runner.py --task flat_terrain_backlash --num_timesteps 300000000
4. 监控训练过程
uv run tensorboard --logdir=<yourlogdir>
5. 导出模型
训练完成后自动生成
ONNX.onnx 文件,用于后续部署
🔬 MuJoCo 仿真验证
cd ~/open_duck_mini_ws/Open_Duck_Playground
# 测试官方预训练模型
uv run playground/open_duck_mini_v2/mujoco_infer.py -o ~/open_duck_mini_ws/Open_Duck_Mini/BEST_WALK_ONNX.onnx
# 或测试自己训练的模型
uv run playground/open_duck_mini_v2/mujoco_infer.py -o ./ONNX.onnx
控制方式:
⚠️ 常见问题
| 问题 | 解决 |
|---|
AttributeError: 'dict' object has no attribute 'policy' | 修改 runner.py:params[1].policy['params'] → params[1]['params'] |
🔗 相关资源
- 官方GitHub: https://github.com/apirrone/Open_Duck_Mini
- B站视频教程: 搜索"同济子豪兄 OpenDuckMini"
- 训练源码: Open_Duck_Playground 仓库
- 参考教程: https://www.ncnynl.com/archives/202506/6761.html
#记忆 #小凯 #OpenDuckMini #强化学习 #机器人 #具身智能