dqn-SpaceInvadersNoFrameskip-v4オープンソースエージェント - 無料で「スペースインベーダー」ゲームを制圧する

ホーム

Dqn SpaceInvadersNoFrameskip V4

0xrushiによって開発

これはDQNアルゴリズムに基づく強化学習エージェントで、SpaceInvadersNoFrameskip-v4ゲームをプレイするために特別に設計され、stable-baselines3ライブラリでトレーニングされています。

動画処理 #アタリゲームAI #深層Q学習 #強化学習トレーニング

ダウンロード数 13

リリース時間 : 6/13/2022

モデル概要

このモデルは深層強化学習エージェントで、DQN (Deep Q-Network) アルゴリズムを使用してトレーニングされ、Space Invadersゲーム環境で意思決定と行動を行うことができます。

モデル特徴

アタリゲーム専用

アタリゲームSpace Invadersに特化して最適化トレーニングされています

安定したトレーニングフレームワーク

stable-baselines3ライブラリとRL Zooトレーニングフレームワークに基づいています

フレームスタッキング処理

4フレームスタッキング技術を使用してゲーム画面を処理し、意思決定の精度を向上させます

モデル能力

アタリゲーム制御

リアルタイム意思決定

強化学習

使用事例

ゲームAI

Space InvadersゲームAI

Space Invadersゲームを自動でプレイ

平均報酬 892.00 +/- 340.52

強化学習研究

DQNアルゴリズムベンチマーク

DQNアルゴリズムのアタリゲームにおける性能ベンチマークとして

🚀 DQNエージェントによるSpaceInvadersNoFrameskip - v4のプレイ

このモデルは、[stable - baselines3ライブラリ](https://github.com/DLR - RM/stable - baselines3)と[RL Zoo](https://github.com/DLR - RM/rl - baselines3 - zoo)を使用して、SpaceInvadersNoFrameskip - v4をプレイするように訓練されたDQNエージェントです。RL Zooは、Stable Baselines3の強化学習エージェント用の訓練フレームワークで、ハイパーパラメータの最適化と事前訓練済みのエージェントが含まれています。

🚀 クイックスタート

モデルの使用方法 (SB3 RL Zooを使用)

RL Zoo: https://github.com/DLR - RM/rl - baselines3 - zoo
SB3: https://github.com/DLR - RM/stable - baselines3
SB3 Contrib: https://github.com/Stable - Baselines - Team/stable - baselines3 - contrib

# モデルをダウンロードしてlogs/フォルダに保存
python -m utils.load_from_hub --algo dqn --env SpaceInvadersNoFrameskip-v4 -orga rushic24 -f logs/
python enjoy.py --algo dqn --env SpaceInvadersNoFrameskip-v4  -f logs/

モデルの訓練方法 (RL Zooを使用)

python train.py --algo dqn --env SpaceInvadersNoFrameskip-v4 -f logs/
# モデルをアップロードし、可能な場合は動画を生成
python -m utils.push_to_hub --algo dqn --env SpaceInvadersNoFrameskip-v4 -f logs/ -orga rushic24

💻 使用例

基本的な使用法

# モデルのダウンロードと実行
python -m utils.load_from_hub --algo dqn --env SpaceInvadersNoFrameskip-v4 -orga rushic24 -f logs/
python enjoy.py --algo dqn --env SpaceInvadersNoFrameskip-v4  -f logs/

高度な使用法

# モデルの訓練とアップロード
python train.py --algo dqn --env SpaceInvadersNoFrameskip-v4 -f logs/
python -m utils.push_to_hub --algo dqn --env SpaceInvadersNoFrameskip-v4 -f logs/ -orga rushic24

🔧 技術詳細

メトリクス

メトリクス	値
平均報酬	892.00 +/- 340.52

ハイパーパラメータ

OrderedDict([('batch_size', 32),
             ('buffer_size', 100000),
             ('env_wrapper',
              ['stable_baselines3.common.atari_wrappers.AtariWrapper']),
             ('exploration_final_eps', 0.01),
             ('exploration_fraction', 0.1),
             ('frame_stack', 4),
             ('gradient_steps', 1),
             ('learning_rate', 0.0001),
             ('learning_starts', 100000),
             ('n_timesteps', 10000000.0),
             ('optimize_memory_usage', True),
             ('policy', 'CnnPolicy'),
             ('target_update_interval', 1000),
             ('train_freq', 4),
             ('normalize', False)])