ppo-MountainCarContinuous-v0開源智能體 - 有效解決山地車連續控制問題

首頁

Ppo MountainCarContinuous V0

由sb3開發

這是一個基於PPO算法的強化學習智能體，專門為MountainCarContinuous-v0環境訓練，能夠有效解決連續控制的山地車問題。

物理學模型 #連續動作控制 #小樣本高效訓練 #自定義策略優化

下載量 433

發布時間 : 5/20/2022

模型概述

該模型使用stable-baselines3庫中的PPO算法訓練，適用於MountainCarContinuous-v0環境，能夠學習如何控制山地車到達山頂。

模型特點

高效訓練

使用PPO算法進行訓練，在較少的訓練步數內獲得較高的平均獎勵。

穩定性能

模型表現穩定，平均獎勵達到94.57±0.45。

參數優化

使用RL Zoo框架進行超參數優化，確保模型性能最佳。

模型能力

連續動作空間控制

強化學習任務解決

環境交互學習

使用案例

強化學習研究

連續控制基準測試

可作為連續控制任務的基準模型進行比較研究

平均獎勵94.57±0.45

教學演示

強化學習教學案例

用於展示PPO算法在連續控制任務中的應用

🚀 PPO 智能體在 MountainCarContinuous-v0 環境中的應用

本項目是一個經過訓練的 PPO 智能體，它使用 stable-baselines3 庫和 RL Zoo 在 MountainCarContinuous-v0 環境中進行學習和決策。RL Zoo 是一個用於 Stable Baselines3 強化學習智能體的訓練框架，其中包含超參數優化和預訓練智能體。

🚀 快速開始

模型評估

# 下載模型並保存到 logs/ 文件夾
python -m rl_zoo3.load_from_hub --algo ppo --env MountainCarContinuous-v0 -orga sb3 -f logs/
python enjoy.py --algo ppo --env MountainCarContinuous-v0  -f logs/

模型訓練

python train.py --algo ppo --env MountainCarContinuous-v0 -f logs/
# 上傳模型並生成視頻（如果可能）
python -m rl_zoo3.push_to_hub --algo ppo --env MountainCarContinuous-v0 -f logs/ -orga sb3

✨ 主要特性

環境支持：支持 MountainCarContinuous-v0 環境。
算法類型：使用 PPO（近端策略優化）算法。
訓練框架：基於 stable-baselines3 庫和 RL Zoo 進行訓練。

📦 安裝指南

RL Zoo: https://github.com/DLR-RM/rl-baselines3-zoo
SB3: https://github.com/DLR-RM/stable-baselines3
SB3 Contrib: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib

請根據上述鏈接中的說明進行安裝。

💻 使用示例

基礎用法

# 下載模型並保存到 logs/ 文件夾
python -m rl_zoo3.load_from_hub --algo ppo --env MountainCarContinuous-v0 -orga sb3 -f logs/
python enjoy.py --algo ppo --env MountainCarContinuous-v0  -f logs/

高級用法

# 模型訓練
python train.py --algo ppo --env MountainCarContinuous-v0 -f logs/
# 上傳模型並生成視頻（如果可能）
python -m rl_zoo3.push_to_hub --algo ppo --env MountainCarContinuous-v0 -f logs/ -orga sb3

🔧 技術細節

超參數設置

OrderedDict([('batch_size', 256),
             ('clip_range', 0.1),
             ('ent_coef', 0.00429),
             ('gae_lambda', 0.9),
             ('gamma', 0.9999),
             ('learning_rate', 7.77e-05),
             ('max_grad_norm', 5),
             ('n_envs', 1),
             ('n_epochs', 10),
             ('n_steps', 8),
             ('n_timesteps', 20000.0),
             ('normalize', True),
             ('policy', 'MlpPolicy'),
             ('policy_kwargs', 'dict(log_std_init=-3.29, ortho_init=False)'),
             ('use_sde', True),
             ('vf_coef', 0.19),
             ('normalize_kwargs', {'norm_obs': True, 'norm_reward': False})])