ppo-Pendulum-v1開源強化學習模型 - 免費部署解決控制問題

首頁

Ppo Pendulum V1

由ernestumorga開發

這是一個基於PPO算法的強化學習模型，用於解決Pendulum-v1環境中的控制問題。

物理學模型 #連續控制 #物理模擬 #高效訓練

下載量 16

發布時間 : 6/7/2022

模型概述

該模型使用PPO（Proximal Policy Optimization）算法在Pendulum-v1環境中進行訓練，旨在實現倒立擺的穩定控制。

模型特點

基於PPO算法

使用PPO算法進行訓練，這是一種先進的策略優化方法，能夠在保持訓練穩定性的同時實現高效學習。

多環境並行訓練

支持4個環境並行訓練（n_envs=4），提高了訓練效率。

狀態依賴探索

使用狀態依賴探索（use_sde=True），增強了探索能力。

模型能力

倒立擺控制

連續動作空間處理

強化學習策略優化

使用案例

控制問題

倒立擺平衡控制

控制倒立擺使其保持直立狀態

平均獎勵：-227.99 +/- 144.65

🚀 PPO 智能體在 Pendulum-v1 環境中的應用

本項目是一個經過訓練的 PPO 智能體，它使用 stable-baselines3 庫和 RL Zoo 在 Pendulum-v1 環境中進行學習和交互。RL Zoo 是一個針對 Stable Baselines3 強化學習智能體的訓練框架，包含超參數優化和預訓練智能體。

🚀 快速開始

使用 SB3 RL Zoo 運行模型

RL Zoo 倉庫地址：https://github.com/DLR-RM/rl-baselines3-zoo
SB3 倉庫地址：https://github.com/DLR-RM/stable-baselines3
SB3 Contrib 倉庫地址：https://github.com/Stable-Baselines-Team/stable-baselines3-contrib

# 下載模型並保存到 logs/ 文件夾
python -m utils.load_from_hub --algo ppo --env Pendulum-v1 -orga ernestumorga -f logs/
python enjoy.py --algo ppo --env Pendulum-v1  -f logs/

使用 RL Zoo 進行訓練

python train.py --algo ppo --env Pendulum-v1 -f logs/
# 上傳模型並生成視頻（如果可能）
python -m utils.push_to_hub --algo ppo --env Pendulum-v1 -f logs/ -orga ernestumorga

📦 安裝指南

文檔中未明確提及安裝步驟，可參考相關庫的官方文檔進行安裝：

💻 使用示例

基礎用法

# 下載模型並保存到 logs/ 文件夾
python -m utils.load_from_hub --algo ppo --env Pendulum-v1 -orga ernestumorga -f logs/
python enjoy.py --algo ppo --env Pendulum-v1  -f logs/

高級用法

# 使用 RL Zoo 進行訓練
python train.py --algo ppo --env Pendulum-v1 -f logs/
# 上傳模型並生成視頻（如果可能）
python -m utils.push_to_hub --algo ppo --env Pendulum-v1 -f logs/ -orga ernestumorga

🔧 技術細節

超參數設置

OrderedDict([('clip_range', 0.2),
             ('ent_coef', 0.0),
             ('gae_lambda', 0.95),
             ('gamma', 0.9),
             ('learning_rate', 0.001),
             ('n_envs', 4),
             ('n_epochs', 10),
             ('n_steps', 1024),
             ('n_timesteps', 100000.0),
             ('policy', 'MlpPolicy'),
             ('sde_sample_freq', 4),
             ('use_sde', True),
             ('normalize', False)])