P

Ppo Hopper V3

由sb3開發
這是一個基於 stable-baselines3 庫訓練的 PPO 強化學習模型,專門用於 Hopper-v3 環境中的連續控制任務。
下載量 19
發布時間 : 6/2/2022

模型概述

該模型使用近端策略優化(PPO)算法訓練,用於解決 Hopper-v3 環境中的連續控制問題,使機器人學習跳躍移動。

模型特點

高性能表現
在 Hopper-v3 環境中實現了2410.11的平均獎勵
穩定訓練
使用PPO算法確保訓練過程的穩定性
參數優化
經過精心調優的超參數配置

模型能力

連續動作空間控制
機器人運動控制
強化學習任務解決

使用案例

機器人控制
跳躍機器人控制
控制機器人實現穩定的跳躍移動
在Hopper-v3環境中達到2410.11的平均獎勵
強化學習研究
算法基準測試
作為PPO算法在連續控制任務中的基準參考
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase