ppo-SpaceInvadersNoFrameskip-v4オープンソースエージェント - 無料でデプロイし、スペースインベーダーゲームのトレーニングと実践を支援

ホーム

Ppo SpaceInvadersNoFrameskip V4

sb3によって開発

これはPPOアルゴリズムに基づく強化学習エージェントで、SpaceInvadersNoFrameskip-v4ゲーム環境でのトレーニングとプレイに特化しています。

動画処理 #アタリゲーム強化学習 #マルチ環境並列トレーニング #フレームスタッキング入力

ダウンロード数 8,999

リリース時間 : 6/2/2022

モデル概要

このモデルはstable-baselines3ライブラリとRL Zooフレームワークを使用してトレーニングされ、アタリゲームSpace Invadersで自動プレイを実現できます。

モデル特徴

高性能ゲームAI

SpaceInvadersゲームで886.50 ± 417.30の平均報酬パフォーマンスを達成

安定したトレーニングフレームワーク

stable-baselines3とRL Zooトレーニングフレームワークに基づき、信頼性の高いトレーニングプロセスを提供

専用に最適化されたハイパーパラメータ

SpaceInvadersゲーム環境向けに特別にハイパーパラメータを最適化

モデル能力

アタリゲーム制御

強化学習意思決定

ゲーム状態理解

使用事例

ゲームAI

Space InvadersゲームAI

Space Invadersゲームを自動プレイ

平均報酬886.50 ± 417.30

強化学習研究

PPOアルゴリズム研究

アタリゲームにおけるPPOアルゴリズムのパフォーマンスを研究

🚀 Stable - Baselines3 ライブラリを用いたPPOエージェントによるSpaceInvadersNoFrameskip - v4のプレイ

このモデルは、[stable - baselines3ライブラリ](https://github.com/DLR - RM/stable - baselines3) と [RL Zoo](https://github.com/DLR - RM/rl - baselines3 - zoo) を使用して、SpaceInvadersNoFrameskip - v4 をプレイするように学習された PPO エージェントです。

RL Zooは、Stable Baselines3の強化学習エージェントのトレーニングフレームワークで、ハイパーパラメータの最適化と事前学習済みのエージェントが含まれています。

🚀 クイックスタート

モデルのダウンロードと実行

RL Zoo: https://github.com/DLR - RM/rl - baselines3 - zoo
SB3: https://github.com/DLR - RM/stable - baselines3
SB3 Contrib: https://github.com/Stable - Baselines - Team/stable - baselines3 - contrib

# モデルをダウンロードしてlogs/フォルダに保存
python -m rl_zoo3.load_from_hub --algo ppo --env SpaceInvadersNoFrameskip-v4 -orga sb3 -f logs/
python enjoy.py --algo ppo --env SpaceInvadersNoFrameskip-v4  -f logs/

モデルのトレーニング

python train.py --algo ppo --env SpaceInvadersNoFrameskip-v4 -f logs/
# モデルをアップロードし、可能な場合はビデオを生成
python -m rl_zoo3.push_to_hub --algo ppo --env SpaceInvadersNoFrameskip-v4 -f logs/ -orga sb3

✨ 主な機能

このモデルは、PPOアルゴリズムを使用して、SpaceInvadersNoFrameskip - v4 ゲームにおいて高い平均報酬を達成します。以下はモデルの評価指標です。

Property	Details
Model Type	PPO
Training Data	SpaceInvadersNoFrameskip-v4
Mean Reward	886.50 +/- 417.30

🔧 技術詳細

ハイパーパラメータ

OrderedDict([('batch_size', 256),
             ('clip_range', 'lin_0.1'),
             ('ent_coef', 0.01),
             ('env_wrapper',
              ['stable_baselines3.common.atari_wrappers.AtariWrapper']),
             ('frame_stack', 4),
             ('learning_rate', 'lin_2.5e-4'),
             ('n_envs', 8),
             ('n_epochs', 4),
             ('n_steps', 128),
             ('n_timesteps', 10000000.0),
             ('policy', 'CnnPolicy'),
             ('vf_coef', 0.5),
             ('normalize', False)])