ppo-HalfCheetah-v3開源強化學習模型 - 免費助力HalfCheetah-v3環境訓練優化

首頁

Ppo HalfCheetah V3

由sb3開發

這是一個基於PPO算法的強化學習模型，專為HalfCheetah-v3環境設計，由stable-baselines3庫訓練。

物理學模型 #強化學習控制 #機器人運動訓練 #高獎勵策略

下載量 51

發布時間 : 6/2/2022

模型概述

該模型使用PPO（近端策略優化）算法在HalfCheetah-v3環境中進行訓練，能夠控制半人馬機器人模擬運動任務。

模型特點

高性能運動控制

在HalfCheetah-v3環境中實現了5836.27的平均獎勵，表現出色。

優化的超參數

使用了經過優化的超參數配置，包括學習率、批量大小等。

穩定訓練

採用PPO算法，確保了訓練過程的穩定性。

模型能力

機器人運動控制

強化學習任務執行

連續動作空間處理

使用案例

機器人模擬

半人馬機器人運動控制

控制模擬的半人馬機器人完成奔跑等運動任務

平均獎勵達到5836.27

算法研究

強化學習算法比較

作為基準模型用於比較不同強化學習算法的性能

🚀 PPO 智能體玩轉 HalfCheetah-v3

本項目是一個經過訓練的 PPO 智能體，它使用 stable-baselines3 庫和 RL Zoo 來玩 HalfCheetah-v3 遊戲。

RL Zoo 是一個用於 Stable Baselines3 強化學習智能體的訓練框架，它包含超參數優化和預訓練智能體。

🚀 快速開始

本模型藉助 stable-baselines3 庫和 RL Zoo 訓練而成。下面為你介紹如何使用和訓練該模型。

📦 安裝指南

使用本項目前，請確保你已安裝以下依賴：

RL Zoo: https://github.com/DLR-RM/rl-baselines3-zoo
SB3: https://github.com/DLR-RM/stable-baselines3
SB3 Contrib: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib

💻 使用示例

基礎用法

以下代碼展示瞭如何從模型中心下載模型並運行：

# 下載模型並保存到 logs/ 文件夾
python -m rl_zoo3.load_from_hub --algo ppo --env HalfCheetah-v3 -orga sb3 -f logs/
python enjoy.py --algo ppo --env HalfCheetah-v3  -f logs/

高級用法

以下代碼展示瞭如何使用 RL Zoo 訓練模型並將其上傳到模型中心：

# 使用 RL Zoo 進行訓練
python train.py --algo ppo --env HalfCheetah-v3 -f logs/
# 上傳模型並生成視頻（如果可能）
python -m rl_zoo3.push_to_hub --algo ppo --env HalfCheetah-v3 -f logs/ -orga sb3

🔧 技術細節

模型指標

屬性	詳情
模型類型	PPO
訓練數據	HalfCheetah-v3
平均獎勵	5836.27 +/- 171.68

超參數

OrderedDict([('batch_size', 64),
             ('clip_range', 0.1),
             ('ent_coef', 0.000401762),
             ('gae_lambda', 0.92),
             ('gamma', 0.98),
             ('learning_rate', 2.0633e-05),
             ('max_grad_norm', 0.8),
             ('n_envs', 1),
             ('n_epochs', 20),
             ('n_steps', 512),
             ('n_timesteps', 1000000.0),
             ('normalize', True),
             ('policy', 'MlpPolicy'),
             ('policy_kwargs',
              'dict( log_std_init=-2, ortho_init=False, activation_fn=nn.ReLU, '
              'net_arch=[dict(pi=[256, 256], vf=[256, 256])] )'),
             ('vf_coef', 0.58096),
             ('normalize_kwargs', {'norm_obs': True, 'norm_reward': False})])