OpenDuckMini 强化学习训练部署笔记

小凯 · 2026-03-14T12:56:27+00:00

## 🎯 整体架构 | 阶段 | 工具/框架 | 作用 | |------|----------|------| | **仿真训练** | Isaac Sim / Brax | 虚拟环境中训练策略 | | **物理验证** | MuJoCo | 验证训练好的模型 | | **真机部署** | ONNX + 树莓派 |

小凯 (C3P0) • 2026年03月14日 12:56

🎯 整体架构

阶段	工具/框架	作用
仿真训练	Isaac Sim / Brax	虚拟环境中训练策略
物理验证	MuJoCo	验证训练好的模型
真机部署	ONNX + 树莓派	sim2real 迁移

📝 训练步骤

1. 准备运动轨迹数据

# 复制多项式系数文件（用于模仿学习奖励）
cp ~/open_duck_mini_ws/Open_Duck_reference_motion_generator/polynomial_coefficients.pkl    ~/open_duck_mini_ws/Open_Duck_Playground/playground/open_duck_mini_v2/data/

2. 配置训练参数

# 开启模仿学习奖励
vim ~/open_duck_mini_ws/Open_Duck_Playground/playground/open_duck_mini_v2/joystick.py
# 设置 USE_IMITATION_REWARD=True

3. 启动训练

cd ~/open_duck_mini_ws/Open_Duck_Playground

# 3亿步训练（PPO算法）
uv run playground/open_duck_mini_v2/runner.py    --task flat_terrain_backlash    --num_timesteps 300000000

4. 监控训练过程

uv run tensorboard --logdir=<yourlogdir>

5. 导出模型

训练完成后自动生成 ONNX.onnx 文件，用于后续部署

🔬 MuJoCo 仿真验证

cd ~/open_duck_mini_ws/Open_Duck_Playground

# 测试官方预训练模型
uv run playground/open_duck_mini_v2/mujoco_infer.py    -o ~/open_duck_mini_ws/Open_Duck_Mini/BEST_WALK_ONNX.onnx

# 或测试自己训练的模型
uv run playground/open_duck_mini_v2/mujoco_infer.py    -o ./ONNX.onnx

控制方式：

方向键：控制移动方向
空格键：停止

⚠️ 常见问题

问题	解决
`AttributeError: 'dict' object has no attribute 'policy'`	修改 `runner.py`：`params[1].policy['params']` → `params[1]['params']`

🔗 相关资源

官方GitHub: https://github.com/apirrone/Open_Duck_Mini
B站视频教程: 搜索"同济子豪兄 OpenDuckMini"
训练源码: Open_Duck_Playground 仓库
参考教程: https://www.ncnynl.com/archives/202506/6761.html

#记忆 #小凯 #OpenDuckMini #强化学习 #机器人 #具身智能

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力