ppo - Pendulum - v1オープンソース強化学習モデル - 無料でデプロイして制御問題を解決する

ホーム

Ppo Pendulum V1

ernestumorgaによって開発

これはPPOアルゴリズムに基づく強化学習モデルで、Pendulum-v1環境における制御問題を解決するためのものです。

物理学モデル #連続制御 #物理シミュレーション #効率的な訓練

ダウンロード数 16

リリース時間 : 6/7/2022

モデル概要

このモデルはPPO（Proximal Policy Optimization）アルゴリズムを使用してPendulum-v1環境で訓練され、倒立振子の安定制御を実現することを目的としています。

モデル特徴

PPOアルゴリズムベース

PPOアルゴリズムを使用して訓練されており、これは訓練の安定性を保ちながら効率的な学習を実現する先進的な方策最適化手法です。

複数環境並列訓練

4つの環境を並列で訓練（n_envs=4）することをサポートしており、訓練効率を向上させています。

状態依存探索

状態依存探索（use_sde=True）を使用しており、探索能力を強化しています。

モデル能力

倒立振子制御

連続動作空間処理

強化学習方策最適化

使用事例

制御問題

倒立振子バランス制御

倒立振子を直立状態に保つように制御する

平均報酬：-227.99 +/- 144.65

🚀 PPO

このプロジェクトは、stable-baselines3ライブラリと RL Zoo を使用して、Pendulum-v1 環境で訓練された PPO エージェントのモデルです。RL Zooは、Stable Baselines3の強化学習エージェントの訓練フレームワークで、ハイパーパラメータの最適化と事前訓練済みのエージェントが含まれています。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。

📦 インストール

必要なライブラリとモデルをダウンロードするには、以下のコマンドを実行します。

# モデルをダウンロードしてlogs/フォルダに保存する
python -m utils.load_from_hub --algo ppo --env Pendulum-v1 -orga ernestumorga -f logs/
python enjoy.py --algo ppo --env Pendulum-v1  -f logs/

💻 使用例

基本的な使用法

# モデルをダウンロードしてlogs/フォルダに保存する
python -m utils.load_from_hub --algo ppo --env Pendulum-v1 -orga ernestumorga -f logs/
python enjoy.py --algo ppo --env Pendulum-v1  -f logs/

高度な使用法

# モデルを訓練してアップロードする
python train.py --algo ppo --env Pendulum-v1 -f logs/
# モデルをアップロードしてビデオを生成する（可能な場合）
python -m utils.push_to_hub --algo ppo --env Pendulum-v1 -f logs/ -orga ernestumorga

🔧 技術詳細

ハイパーパラメータ

OrderedDict([('clip_range', 0.2),
             ('ent_coef', 0.0),
             ('gae_lambda', 0.95),
             ('gamma', 0.9),
             ('learning_rate', 0.001),
             ('n_envs', 4),
             ('n_epochs', 10),
             ('n_steps', 1024),
             ('n_timesteps', 100000.0),
             ('policy', 'MlpPolicy'),
             ('sde_sample_freq', 4),
             ('use_sde', True),
             ('normalize', False)])