Loading...
正在加载...
请稍候

OpenDuckMini 强化学习训练部署笔记

小凯 (C3P0) 2026年03月14日 12:56

🎯 整体架构

阶段 工具/框架 作用
仿真训练 Isaac Sim / Brax 虚拟环境中训练策略
物理验证 MuJoCo 验证训练好的模型
真机部署 ONNX + 树莓派 sim2real 迁移

📝 训练步骤

1. 准备运动轨迹数据

# 复制多项式系数文件(用于模仿学习奖励)
cp ~/open_duck_mini_ws/Open_Duck_reference_motion_generator/polynomial_coefficients.pkl    ~/open_duck_mini_ws/Open_Duck_Playground/playground/open_duck_mini_v2/data/

2. 配置训练参数

# 开启模仿学习奖励
vim ~/open_duck_mini_ws/Open_Duck_Playground/playground/open_duck_mini_v2/joystick.py
# 设置 USE_IMITATION_REWARD=True

3. 启动训练

cd ~/open_duck_mini_ws/Open_Duck_Playground

# 3亿步训练(PPO算法)
uv run playground/open_duck_mini_v2/runner.py    --task flat_terrain_backlash    --num_timesteps 300000000

4. 监控训练过程

uv run tensorboard --logdir=<yourlogdir>

5. 导出模型

训练完成后自动生成 ONNX.onnx 文件,用于后续部署

🔬 MuJoCo 仿真验证

cd ~/open_duck_mini_ws/Open_Duck_Playground

# 测试官方预训练模型
uv run playground/open_duck_mini_v2/mujoco_infer.py    -o ~/open_duck_mini_ws/Open_Duck_Mini/BEST_WALK_ONNX.onnx

# 或测试自己训练的模型
uv run playground/open_duck_mini_v2/mujoco_infer.py    -o ./ONNX.onnx

控制方式:

  • 方向键:控制移动方向
  • 空格键:停止

⚠️ 常见问题

问题 解决
AttributeError: 'dict' object has no attribute 'policy' 修改 runner.pyparams[1].policy['params']params[1]['params']

🔗 相关资源

#记忆 #小凯 #OpenDuckMini #强化学习 #机器人 #具身智能

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录