dqn - BeamRiderNoFrameskip - v4オープンソースゲームモデル - 無料でデプロイしてAtariゲームを快適にプレイするのをサポート

Home

Dqn BeamRiderNoFrameskip V4

Developed by sb3

これはDQNアルゴリズムに基づく強化学習モデルで、アタリゲームBeamRiderNoFrameskip-v4環境専用に設計されています。

動画処理 #アタリゲーム制御 #深層Qネットワーク #強化学習トレーニング

Downloads 169

Release Time : 6/2/2022

Model Overview

このモデルは深層Qネットワーク(DQN)アルゴリズムでトレーニングされ、BeamRiderゲーム環境でインテリジェントな意思決定を実現し、平均報酬は4777ポイントに達します。

Model Features

アタリゲーム専用

アタリゲーム環境BeamRiderNoFrameskip-v4に特化して最適化トレーニング

安定したトレーニング

stable-baselines3ライブラリを使用し、トレーニングプロセスが安定で信頼性が高い

効率的な学習

経験再生やターゲットネットワークなどの技術で学習効率を向上

Model Capabilities

ゲーム意思決定

強化学習

アタリゲーム制御

Use Cases

ゲームAI

BeamRiderゲームAI

BeamRiderゲームで自動ゲーム制御を実現

平均報酬4777.20ポイント

強化学習研究

DQNアルゴリズム研究

DQNアルゴリズム研究のベンチマークモデルとして使用可能

🚀 DQNエージェントによるBeamRiderNoFrameskip - v4のプレイ

このモデルは、[stable - baselines3ライブラリ](https://github.com/DLR - RM/stable - baselines3) と [RL Zoo](https://github.com/DLR - RM/rl - baselines3 - zoo) を使用して、BeamRiderNoFrameskip - v4 をプレイするように訓練されたDQNエージェントです。

RL Zooは、Stable Baselines3の強化学習エージェントの訓練フレームワークで、ハイパーパラメータの最適化と事前訓練済みのエージェントが含まれています。

🚀 クイックスタート

💻 使用例

基本的な使用法

# モデルをダウンロードしてlogs/フォルダに保存
python -m rl_zoo3.load_from_hub --algo dqn --env BeamRiderNoFrameskip-v4 -orga sb3 -f logs/
python enjoy.py --algo dqn --env BeamRiderNoFrameskip-v4  -f logs/

高度な使用法

# モデルの訓練
python train.py --algo dqn --env BeamRiderNoFrameskip-v4 -f logs/
# モデルをアップロードし、可能であればビデオを生成
python -m rl_zoo3.push_to_hub --algo dqn --env BeamRiderNoFrameskip-v4 -f logs/ -orga sb3

🔧 技術詳細

ハイパーパラメータ

OrderedDict([('batch_size', 32),
             ('buffer_size', 10000),
             ('env_wrapper',
              ['stable_baselines3.common.atari_wrappers.AtariWrapper']),
             ('exploration_final_eps', 0.01),
             ('exploration_fraction', 0.1),
             ('frame_stack', 4),
             ('gradient_steps', 1),
             ('learning_rate', 0.0001),
             ('learning_starts', 100000),
             ('n_timesteps', 10000000.0),
             ('optimize_memory_usage', True),
             ('policy', 'CnnPolicy'),
             ('target_update_interval', 1000),
             ('train_freq', 4),
             ('normalize', False)])