ppo-Pendulum-v1開源強化學習模型 - 免費解決Pendulum-v1環境控制難題

首頁

Ppo Pendulum V1

由sb3開發

這是一個基於PPO算法的強化學習模型，專門用於解決Pendulum-v1環境中的控制問題。

物理學模型 #倒立擺控制 #連續動作空間 #隨機策略優化

下載量 51

發布時間 : 5/4/2022

模型概述

該模型使用Stable Baselines3庫中的PPO算法訓練，適用於Pendulum-v1環境，能夠學習如何控制倒立擺保持直立狀態。

模型特點

使用SDE技術

採用了狀態依賴探索(State-Dependent Exploration)技術，提高了探索效率

穩定訓練

基於PPO算法，確保訓練過程的穩定性

高效學習

通過合理的超參數設置，實現高效學習

模型能力

倒立擺控制

連續動作空間處理

強化學習任務解決

使用案例

控制問題

倒立擺平衡控制

控制倒立擺保持在直立位置

平均獎勵達到-230.42 ±142.54

教學演示

強化學習教學示例

作為強化學習算法的教學演示案例

🚀 PPO 智能體在 Pendulum-v1 環境中的應用

本項目是一個經過訓練的 PPO 智能體，它在 Pendulum-v1 環境中進行學習和決策。該智能體藉助 stable-baselines3 庫和 RL Zoo 實現，其中 RL Zoo 是一個用於 Stable Baselines3 強化學習智能體的訓練框架，包含超參數優化和預訓練智能體。

🚀 快速開始

使用已訓練模型

你可以按照以下步驟使用已訓練的模型：

# 下載模型並保存到 logs/ 文件夾
python -m rl_zoo3.load_from_hub --algo ppo --env Pendulum-v1 -orga sb3 -f logs/
python enjoy.py --algo ppo --env Pendulum-v1  -f logs/

模型訓練

如果你想重新訓練模型，可以使用以下命令：

python train.py --algo ppo --env Pendulum-v1 -f logs/
# 上傳模型並生成視頻（如果可能）
python -m rl_zoo3.push_to_hub --algo ppo --env Pendulum-v1 -f logs/ -orga sb3

💻 使用示例

基礎用法

from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env

# 創建環境
env_id = "Pendulum-v1"
env = make_vec_env(env_id, n_envs=1)

# 實例化智能體
model = PPO(
    "MlpPolicy",
    env,
    gamma=0.98,
    # 使用 https://proceedings.mlr.press/v164/raffin22a.html
    use_sde=True,
    sde_sample_freq=4,
    learning_rate=1e-3,
    verbose=1,
)

# 訓練智能體
model.learn(total_timesteps=int(1e5))

🔧 技術細節

超參數設置

OrderedDict([('clip_range', 0.2),
             ('ent_coef', 0.0),
             ('gae_lambda', 0.95),
             ('gamma', 0.9),
             ('learning_rate', 0.001),
             ('n_envs', 4),
             ('n_epochs', 10),
             ('n_steps', 1024),
             ('n_timesteps', 100000.0),
             ('policy', 'MlpPolicy'),
             ('sde_sample_freq', 4),
             ('use_sde', True),
             ('normalize', False)])