P

Ppo LunarLander V2

sb3によって開発
これはPPOアルゴリズムに基づく強化学習モデルで、LunarLander-v2環境における着陸タスクを解決するために特別に設計されています。
ダウンロード数 73
リリース時間 : 6/2/2022

モデル概要

このモデルはProximal Policy Optimization (PPO)アルゴリズムで訓練されており、LunarLander-v2シミュレーション環境で月面着陸船を安全に着陸させる方法を学習できます。

モデル特徴

安定した訓練
PPOアルゴリズムを使用して訓練プロセスの安定性を確保
効率的な学習
16の並列環境を通じて訓練プロセスを加速
最適化されたハイパーパラメータ
最適化されたハイパーパラメータ設定を使用

モデル能力

連続動作空間制御
強化学習タスク解決
シミュレーション環境との相互作用

使用事例

教育デモ
強化学習教育
強化学習アルゴリズムの実問題への応用を展示
学生はPPOアルゴリズムの動作原理を直感的に理解できる
アルゴリズム研究
強化学習アルゴリズム比較
異なる強化学習アルゴリズムの性能比較のためのベンチマークモデルとして使用
平均報酬233.56 +/- 53.89
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase