ppo - BipedalWalker - v3オープンソース知能エージェントモデル - Walker環境の強化学習タスクに使用する

ホーム

Ppo BipedalWalker V3

sb3によって開発

これはstable-baselines3ライブラリでトレーニングされたPPOエージェントモデルで、BipedalWalker-v3環境における強化学習タスク専用です。

タンパク質モデル #二足歩行ロボット制御 #強化学習トレーニング #高次元アクション空間

ダウンロード数 22

リリース時間 : 6/2/2022

モデル概要

このモデルはPPO (Proximal Policy Optimization) アルゴリズムに基づいており、二足歩行ロボットがBipedalWalker-v3環境で安定した歩行を実現するようにトレーニングされます。

モデル特徴

高性能強化学習

BipedalWalker-v3環境で288.30の平均報酬値を達成

並列トレーニング

32の並列環境を使用してトレーニング効率を向上

パラメータ最適化

学習率、バッチサイズなど、慎重に調整されたハイパーパラメータの組み合わせ

モデル能力

二足歩行制御

強化学習トレーニング

環境インタラクション

使用事例

ロボット制御

二足歩行ロボットトレーニング

二足ロボットが安定して歩行できるようにトレーニング

平均報酬288.30 ± 2.23を達成

強化学習研究

PPOアルゴリズム性能検証

連続制御タスクにおけるPPOアルゴリズムの性能を検証

BipedalWalker-v3環境で良好な性能を発揮

🚀 PPOエージェントによるBipedalWalker - v3のプレイ

このモデルは、[stable - baselines3ライブラリ](https://github.com/DLR - RM/stable - baselines3)と[RL Zoo](https://github.com/DLR - RM/rl - baselines3 - zoo)を使用して、BipedalWalker - v3をプレイするように訓練されたPPOエージェントです。

RL Zooは、Stable Baselines3の強化学習エージェントの訓練フレームワークで、ハイパーパラメータの最適化と事前訓練済みのエージェントが含まれています。

🚀 クイックスタート

このセクションでは、訓練済みモデルの使用方法と訓練方法について説明します。

📦 インストール

RL Zoo: https://github.com/DLR - RM/rl - baselines3 - zoo
SB3: https://github.com/DLR - RM/stable - baselines3
SB3 Contrib: https://github.com/Stable - Baselines - Team/stable - baselines3 - contrib

# モデルをダウンロードしてlogs/フォルダに保存
python -m rl_zoo3.load_from_hub --algo ppo --env BipedalWalker-v3 -orga sb3 -f logs/
python enjoy.py --algo ppo --env BipedalWalker-v3  -f logs/

💻 使用例

基本的な使用法

# モデルをダウンロードしてlogs/フォルダに保存
python -m rl_zoo3.load_from_hub --algo ppo --env BipedalWalker-v3 -orga sb3 -f logs/
python enjoy.py --algo ppo --env BipedalWalker-v3  -f logs/

高度な使用法

# モデルの訓練
python train.py --algo ppo --env BipedalWalker-v3 -f logs/
# モデルをアップロードし、可能な場合はビデオを生成
python -m rl_zoo3.push_to_hub --algo ppo --env BipedalWalker-v3 -f logs/ -orga sb3

🔧 技術詳細

ハイパーパラメータ

OrderedDict([('batch_size', 64),
             ('clip_range', 0.18),
             ('ent_coef', 0.0),
             ('gae_lambda', 0.95),
             ('gamma', 0.999),
             ('learning_rate', 0.0003),
             ('n_envs', 32),
             ('n_epochs', 10),
             ('n_steps', 2048),
             ('n_timesteps', 5000000.0),
             ('normalize', True),
             ('policy', 'MlpPolicy'),
             ('normalize_kwargs', {'norm_obs': True, 'norm_reward': False})])