P

Ppo LunarLander V2

sofiascatによって開発
これはPPOアルゴリズムに基づく強化学習モデルで、LunarLander-v2環境向けに特別に訓練され、月着陸船を安全に着陸させることができます。
ダウンロード数 14
リリース時間 : 4/12/2025

モデル概要

このモデルはProximal Policy Optimization (PPO)アルゴリズムを使用してLunarLander-v2環境で訓練され、連続制御問題、特に宇宙船着陸任務を解決するために使用されます。

モデル特徴

安定した訓練
PPOアルゴリズムは安定したポリシー更新を提供し、訓練中の激しい変動を回避します
連続行動制御
連続行動空間を処理でき、精密制御タスクに適しています
効率的な学習
比較的少ない訓練ステップで良好な性能に達します

モデル能力

連続行動制御
強化学習意思決定
宇宙船着陸シミュレーション

使用事例

宇宙シミュレーション
月着陸船制御
月面に安全に着陸する月着陸船の制御をシミュレート
平均報酬263.22 +/- 22.53
教育デモンストレーション
強化学習教育
強化学習アルゴリズム教育の典型的な事例として
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase