P

Ppo CartPole V1

somya17banによって開発
これはstable-baselines3ライブラリで訓練されたPPOエージェントモデルで、CartPole-v1強化学習タスクを解決するために特別に設計されています。
ダウンロード数 14
リリース時間 : 5/11/2025

モデル概要

このモデルはPPO(Proximal Policy Optimization)アルゴリズムに基づいており、CartPole-v1環境における棒の平衡問題を制御するために使用されます。

モデル特徴

効率的な強化学習
PPOアルゴリズムを使用して効率的なポリシー最適化を実現し、連続動作空間問題に適しています
安定した訓練
PPOアルゴリズムはポリシー更新の範囲を制限することで、訓練プロセスの安定性を確保します
CartPole-v1環境への適応
CartPole-v1環境に特化して最適化されており、最大報酬を達成できます

モデル能力

強化学習制御
棒の平衡制御
連続動作空間での意思決定

使用事例

教育デモ
強化学習の教育
古典的な制御問題における強化学習アルゴリズムの応用をデモンストレーションするために使用されます
棒の平衡を安定して維持し、最大報酬を獲得できます
アルゴリズム研究
PPOアルゴリズムのベンチマークテスト
PPOアルゴリズムの性能基準として使用されます
平均報酬は500.00 +/- 0.00に達します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase