P

Ppo PongNoFrameskip V4

sb3によって開発
これはPPOアルゴリズムに基づく強化学習モデルで、PongNoFrameskip-v4環境でのゲームプレイ専用に設計されています。
ダウンロード数 46
リリース時間 : 6/2/2022

モデル概要

このモデルはstable-baselines3ライブラリとRL Zooトレーニングフレームワークを使用して開発され、フレームスキップなしのPongゲーム環境で効率的なゲーム戦略を実現できます。

モデル特徴

効率的なPPOアルゴリズム
Proximal Policy Optimizationアルゴリズムを使用し、トレーニングの安定性を維持しながら効率的な学習を実現します。
アタリ専用前処理
フレームスタッキングとアタリ専用前処理を含み、ゲーム環境入力を最適化します。
マルチ環境並列トレーニング
8つの環境での並列トレーニングをサポートし、学習プロセスを加速します。

モデル能力

アタリゲーム制御
強化学習戦略最適化
リアルタイム意思決定

使用事例

ゲームAI
PongゲームAI
Pongゲームで高レベルの自動対戦能力を実現
平均報酬21.00を達成
強化学習研究
アルゴリズムベンチマーク
アタリ環境におけるPPOアルゴリズムの性能基準として
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase