P

Ppo Hopper V3

Developed by sb3
這是一個基於 stable-baselines3 庫訓練的 PPO 強化學習模型,專門用於 Hopper-v3 環境中的連續控制任務。
Downloads 19
Release Time : 6/2/2022

Model Overview

該模型使用近端策略優化(PPO)算法訓練,用於解決 Hopper-v3 環境中的連續控制問題,使機器人學習跳躍移動。

Model Features

高性能表現
在 Hopper-v3 環境中實現了2410.11的平均獎勵
穩定訓練
使用PPO算法確保訓練過程的穩定性
參數優化
經過精心調優的超參數配置

Model Capabilities

連續動作空間控制
機器人運動控制
強化學習任務解決

Use Cases

機器人控制
跳躍機器人控制
控制機器人實現穩定的跳躍移動
在Hopper-v3環境中達到2410.11的平均獎勵
強化學習研究
算法基準測試
作為PPO算法在連續控制任務中的基準參考
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase