P

Ppo Hopper V3

sb3によって開発
これはstable-baselines3ライブラリで訓練されたPPO強化学習モデルで、Hopper-v3環境における連続制御タスク専用です。
ダウンロード数 19
リリース時間 : 6/2/2022

モデル概要

このモデルは近位方策最適化(PPO)アルゴリズムで訓練され、Hopper-v3環境における連続制御問題を解決し、ロボットに跳躍移動を学習させます。

モデル特徴

高性能
Hopper-v3環境で2410.11の平均報酬を達成
安定した訓練
PPOアルゴリズムを使用して訓練プロセスの安定性を確保
パラメータ最適化
慎重に調整されたハイパーパラメータ設定

モデル能力

連続行動空間制御
ロボット運動制御
強化学習タスク解決

使用事例

ロボット制御
跳躍ロボット制御
ロボットを制御して安定した跳躍移動を実現
Hopper-v3環境で2410.11の平均報酬を達成
強化学習研究
アルゴリズムベンチマーク
連続制御タスクにおけるPPOアルゴリズムの基準として
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase