P

Ppo BreakoutNoFrameskip V4

ThomasSimoniniによって開発
PPOアルゴリズムを使用してアタリゲームBreakout環境でトレーニングされた深層強化学習モデル
ダウンロード数 459
リリース時間 : 3/2/2022

モデル概要

このモデルはstable-baselines3ライブラリをベースに実装され、PPOアルゴリズムを使用してBreakoutNoFrameskip-v4環境でトレーニングされ、クラシックなアタリBreakoutゲームをプレイできます。

モデル特徴

PPOアルゴリズムベース
近位方策最適化(PPO)アルゴリズムを使用しており、これは強化学習で広く使用される方策勾配法です
フレームスタック処理
4フレームスタック技術を使用してゲーム画面を処理し、モデルが時間的ダイナミクスを感知できるようにします
並列環境トレーニング
8つの並列環境を使用してトレーニングを行い、サンプル収集効率を向上させます
安定したトレーニング
勾配クリッピングや価値関数係数など、さまざまな安定化技術を採用してトレーニングの安定性を確保します

モデル能力

アタリゲーム制御
強化学習意思決定
リアルタイムゲームインタラクション

使用事例

ゲームAI
BreakoutゲームAI
Breakoutゲームの自動プレイヤーとして機能し、継続的に高得点を獲得できます
平均報酬339点を達成
強化学習研究
アルゴリズムベンチマーク
PPOアルゴリズムのアタリゲームにおける性能ベンチマークとして使用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase