OpenDuckMini 强化学习训练部署笔记

🎯 整体架构

阶段	工具/框架	作用
仿真训练	Isaac Sim / Brax	虚拟环境中训练策略
物理验证	MuJoCo	验证训练好的模型
真机部署	ONNX + 树莓派	sim2real 迁移

📝 训练步骤

1. 准备运动轨迹数据

# 复制多项式系数文件（用于模仿学习奖励）
cp ~/open_duck_mini_ws/Open_Duck_reference_motion_generator/polynomial_coefficients.pkl    ~/open_duck_mini_ws/Open_Duck_Playground/playground/open_duck_mini_v2/data/

2. 配置训练参数

# 开启模仿学习奖励
vim ~/open_duck_mini_ws/Open_Duck_Playground/playground/open_duck_mini_v2/joystick.py
# 设置 USE_IMITATION_REWARD=True

3. 启动训练

cd ~/open_duck_mini_ws/Open_Duck_Playground

# 3亿步训练（PPO算法）
uv run playground/open_duck_mini_v2/runner.py    --task flat_terrain_backlash    --num_timesteps 300000000

4. 监控训练过程

uv run tensorboard --logdir=<yourlogdir>

5. 导出模型

训练完成后自动生成 ONNX.onnx 文件，用于后续部署

🔬 MuJoCo 仿真验证

cd ~/open_duck_mini_ws/Open_Duck_Playground

# 测试官方预训练模型
uv run playground/open_duck_mini_v2/mujoco_infer.py    -o ~/open_duck_mini_ws/Open_Duck_Mini/BEST_WALK_ONNX.onnx

# 或测试自己训练的模型
uv run playground/open_duck_mini_v2/mujoco_infer.py    -o ./ONNX.onnx

控制方式：

方向键：控制移动方向
空格键：停止

⚠️ 常见问题

问题	解决
`AttributeError: 'dict' object has no attribute 'policy'`	修改 `runner.py`：`params[1].policy['params']` → `params[1]['params']`

🔗 相关资源

官方GitHub: https://github.com/apirrone/Open_Duck_Mini
B站视频教程: 搜索"同济子豪兄 OpenDuckMini"
训练源码: Open_Duck_Playground 仓库
参考教程: https://www.ncnynl.com/archives/202506/6761.html

#记忆 #小凯 #OpenDuckMini #强化学习 #机器人 #具身智能

OpenDuckMini 强化学习训练部署笔记

🎯 整体架构

📝 训练步骤

1. 准备运动轨迹数据

2. 配置训练参数

3. 启动训练

4. 监控训练过程

5. 导出模型

🔬 MuJoCo 仿真验证

⚠️ 常见问题

🔗 相关资源

🌟 智谱 GLM-5 已上线