P

Ppo BipedalWalker V3

由sb3開發
這是一個使用 stable-baselines3 庫訓練的 PPO 智能體模型,專門用於 BipedalWalker-v3 環境中的強化學習任務。
下載量 22
發布時間 : 6/2/2022

模型概述

該模型基於 PPO (Proximal Policy Optimization) 算法,用於訓練一個雙足行走機器人在 BipedalWalker-v3 環境中實現穩定行走。

模型特點

高性能強化學習
在 BipedalWalker-v3 環境中實現了 288.30 的平均獎勵值
並行訓練
使用 32 個並行環境進行訓練,提高訓練效率
參數優化
經過精心調優的超參數組合,包括學習率、批量大小等

模型能力

雙足行走控制
強化學習訓練
環境交互

使用案例

機器人控制
雙足行走機器人訓練
訓練雙足機器人實現穩定行走
平均獎勵達到 288.30 ± 2.23
強化學習研究
PPO 算法性能驗證
驗證 PPO 算法在連續控制任務中的表現
在 BipedalWalker-v3 環境中表現良好
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase