ppo-LunarLander-v2オープンソース強化学習モデル - 無料でデプロイして月着陸タスクを解決

ホーム

Ppo LunarLander V2

araffinによって開発

これはPPOアルゴリズムに基づく強化学習モデルで、LunarLander-v2環境における着陸タスクを解決するために特別に設計されています。

物理学モデル #月面着陸制御 #マルチ環境並列トレーニング #強化学習チューニング

ダウンロード数 65

リリース時間 : 5/4/2022

モデル概要

このモデルはstable-baselines3ライブラリのPPOアルゴリズムでトレーニングされており、LunarLander-v2環境で安定した着陸制御を実現できます。

モデル特徴

高性能着陸制御

LunarLander-v2環境で安定した着陸制御を実現し、平均報酬は283.49に達します。

PPOアルゴリズムベース

Proximal Policy Optimizationアルゴリズムを使用しており、これは優れたサンプル効率と安定性を備えた先進的なポリシー勾配法です。

マルチ環境並列トレーニング

複数環境での並列トレーニングをサポートし、トレーニングプロセスを高速化できます。

モデル能力

強化学習制御

連続行動空間処理

環境相互作用学習

使用事例

ゲームAI

月面着陸ゲームAI

月面着陸タイプのゲームのAIコントローラーとして使用可能

着陸機を安定させ安全に着陸させることが可能

教育デモ

強化学習教育事例

強化学習アルゴリズムの実践的な応用を展示するために使用

PPOアルゴリズムの学習プロセスを直感的に表示

🚀 PPOエージェントによるLunarLander - v2のプレイ

このモデルは、[stable - baselines3ライブラリ](https://github.com/DLR - RM/stable - baselines3)を使用してLunarLander - v2をプレイするように学習されたPPOエージェントです。

🚀 クイックスタート

モデルの評価と実行

このセクションでは、学習済みのPPOモデルをダウンロードし、評価し、実際に実行する方法を説明します。

from huggingface_sb3 import load_from_hub
from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env
from stable_baselines3.common.evaluation import evaluate_policy

# チェックポイントをダウンロード
checkpoint = load_from_hub("araffin/ppo-LunarLander-v2", "ppo-LunarLander-v2.zip")
# モデルをロード
model = PPO.load(checkpoint)

env = make_vec_env("LunarLander-v2", n_envs=1)

# 評価
print("Evaluating model")
mean_reward, std_reward = evaluate_policy(
    model,
    env,
    n_eval_episodes=20,
    deterministic=True,
)
print(f"Mean reward = {mean_reward:.2f} +/- {std_reward:.2f}")

# 新しいエピソードを開始
obs = env.reset()

try:
    while True:
        action, _states = model.predict(obs, deterministic=True)
        obs, rewards, dones, info = env.step(action)
        env.render()
except KeyboardInterrupt:
    pass

モデルの学習

このセクションでは、PPOモデルを学習するためのコードを示します。

from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env
from stable_baselines3.common.callbacks import EvalCallback

# 環境を作成
env_id = "LunarLander-v2"
n_envs = 16
env = make_vec_env(env_id, n_envs=n_envs)

# 評価用の環境を作成
eval_envs = make_vec_env(env_id, n_envs=5)

# 評価間隔を環境数に応じて調整
eval_freq = int(1e5)
eval_freq = max(eval_freq // n_envs, 1)

# 最良のモデルを保存し、エージェントのパフォーマンスを監視するための評価コールバックを作成
eval_callback = EvalCallback(
    eval_envs,
    best_model_save_path="./logs/",
    eval_freq=eval_freq,
    n_eval_episodes=10,
)

# エージェントをインスタンス化
# ハイパーパラメータはhttps://github.com/DLR-RM/rl-baselines3-zooから取得
model = PPO(
    "MlpPolicy",
    env,
    n_steps=1024,
    batch_size=64,
    gae_lambda=0.98,
    gamma=0.999,
    n_epochs=4,
    ent_coef=0.01,
    verbose=1,
)

# エージェントを学習する（ctrl + cで中断できます）
try:
    model.learn(total_timesteps=int(5e6), callback=eval_callback)
except KeyboardInterrupt:
    pass

# 最良のモデルをロード
model = PPO.load("logs/best_model.zip")

✨ 主な機能

PPOアルゴリズム：Proximal Policy Optimization（PPO）アルゴリズムを使用して、LunarLander - v2環境での学習を行います。
環境の作成：stable - baselines3のmake_vec_env関数を使用して、複数の環境を並列に作成することができます。
評価コールバック：EvalCallbackを使用して、学習中にエージェントのパフォーマンスを監視し、最良のモデルを保存することができます。