P

PPO LunarLander V2

BioGeekによって開発
これはPPOアルゴリズムに基づく強化学習モデルで、LunarLander-v2環境向けに訓練され、月面着陸機を安全に着陸させることができます。
ダウンロード数 102
リリース時間 : 5/21/2022

モデル概要

このモデルはProximal Policy Optimization (PPO)アルゴリズムを使用してLunarLander-v2環境で訓練され、連続行動空間の強化学習問題を解決します。

モデル特徴

安定したトレーニング
PPOアルゴリズムを使用してトレーニングプロセスの安定性を確保
連続行動制御
連続行動空間の制御問題を処理可能
高性能
LunarLander-v2環境で271.97の平均報酬を達成

モデル能力

連続行動制御
強化学習タスク解決
環境とのインタラクションによる意思決定

使用事例

ゲームAI
月面着陸機制御
月面着陸機の安全な着陸をシミュレート
平均報酬271.97 +/- 16.91
教育デモ
強化学習教育
実際の環境におけるPPOアルゴリズムの応用を展示
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase