ppo - Pendulum - v1オープンソース強化学習モデル - 無料でPendulum

ホーム

Ppo Pendulum V1

sb3によって開発

これはPPOアルゴリズムに基づく強化学習モデルで、Pendulum-v1環境における制御問題を解決するために特別に設計されています。

物理学モデル #倒立振子制御 #連続動作空間 #確率的方策最適化

ダウンロード数 51

リリース時間 : 5/4/2022

モデル概要

このモデルはStable Baselines3ライブラリのPPOアルゴリズムでトレーニングされ、Pendulum-v1環境に適用可能で、倒立振子を直立状態に保つ制御方法を学習できます。

モデル特徴

SDE技術の使用

状態依存探索(State-Dependent Exploration)技術を採用し、探索効率を向上させています

安定したトレーニング

PPOアルゴリズムに基づき、トレーニングプロセスの安定性を確保しています

効率的な学習

適切なハイパーパラメータ設定により、効率的な学習を実現しています

モデル能力

倒立振子制御

連続動作空間処理

強化学習タスク解決

使用事例

制御問題

倒立振子のバランス制御

倒立振子を直立位置に保つ制御

平均報酬が-230.42 ±142.54を達成

教育デモンストレーション

強化学習の教育例

強化学習アルゴリズムの教育デモンストレーションケースとして

🚀 PPOエージェントによるPendulum-v1のプレイ

このモデルは、stable-baselines3ライブラリとRL Zooを使用して、Pendulum-v1をプレイするように学習されたPPOエージェントです。RL Zooは、Stable Baselines3の強化学習エージェントのトレーニングフレームワークで、ハイパーパラメータ最適化と事前学習済みエージェントが含まれています。

🚀 クイックスタート

📦 インストール

RL Zoo: https://github.com/DLR-RM/rl-baselines3-zoo
SB3: https://github.com/DLR-RM/stable-baselines3
SB3 Contrib: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib

💻 使用例

基本的な使用法

# モデルをダウンロードしてlogs/フォルダに保存
python -m rl_zoo3.load_from_hub --algo ppo --env Pendulum-v1 -orga sb3 -f logs/
python enjoy.py --algo ppo --env Pendulum-v1  -f logs/

高度な使用法

# モデルのトレーニング
from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env

# 環境の作成
env_id = "Pendulum-v1"
env = make_vec_env(env_id, n_envs=1)

# エージェントのインスタンス化
model = PPO(
    "MlpPolicy",
    env,
    gamma=0.98,
    # Using https://proceedings.mlr.press/v164/raffin22a.html
    use_sde=True,
    sde_sample_freq=4,
    learning_rate=1e-3,
    verbose=1,
)

# エージェントのトレーニング
model.learn(total_timesteps=int(1e5))

トレーニング

python train.py --algo ppo --env Pendulum-v1 -f logs/
# モデルをアップロードしてビデオを生成（可能な場合）
python -m rl_zoo3.push_to_hub --algo ppo --env Pendulum-v1 -f logs/ -orga sb3

🔧 技術詳細

ハイパーパラメータ

OrderedDict([('clip_range', 0.2),
             ('ent_coef', 0.0),
             ('gae_lambda', 0.95),
             ('gamma', 0.9),
             ('learning_rate', 0.001),
             ('n_envs', 4),
             ('n_epochs', 10),
             ('n_steps', 1024),
             ('n_timesteps', 100000.0),
             ('policy', 'MlpPolicy'),
             ('sde_sample_freq', 4),
             ('use_sde', True),
             ('normalize', False)])