ppo-LunarLander-v2開源強化學習模型 - 免費部署助力月球著陸任務

首頁

Ppo LunarLander V2

由sb3開發

這是一個基於PPO算法的強化學習模型，專門用於解決LunarLander-v2環境中的著陸任務。

物理學模型 #月球著陸器控制 #多環境並行訓練 #近端策略優化

下載量 73

發布時間 : 6/2/2022

模型概述

該模型使用Proximal Policy Optimization (PPO)算法訓練，能夠在LunarLander-v2模擬環境中學習如何控制登月艙安全著陸。

模型特點

穩定訓練

使用PPO算法確保訓練過程的穩定性

高效學習

通過16個並行環境加速訓練過程

優化超參數

使用經過優化的超參數配置

模型能力

連續動作空間控制

強化學習任務解決

模擬環境交互

使用案例

教育演示

強化學習教學

用於展示強化學習算法在實際問題中的應用

學生可以直觀理解PPO算法的工作原理

算法研究

強化學習算法比較

作為基準模型用於比較不同強化學習算法的性能

平均獎勵233.56 +/- 53.89

🚀 穩定基線3（Stable-Baselines3）的PPO智能體在月球著陸器環境中的應用

本項目展示了使用穩定基線3庫和強化學習動物園（RL Zoo）訓練的 近端策略優化（PPO） 智能體在 月球著陸器（LunarLander-v2） 環境中的表現。強化學習動物園是一個針對穩定基線3強化學習智能體的訓練框架，包含超參數優化和預訓練智能體。

🚀 快速開始

模型使用（藉助SB3 RL Zoo）

你可以按照以下步驟使用預訓練模型：

# 下載模型並保存到logs/文件夾中
python -m rl_zoo3.load_from_hub --algo ppo --env LunarLander-v2 -orga sb3 -f logs/
python enjoy.py --algo ppo --env LunarLander-v2  -f logs/

模型訓練（藉助RL Zoo）

若要重新訓練模型，可執行以下命令：

python train.py --algo ppo --env LunarLander-v2 -f logs/
# 上傳模型並生成視頻（如果可能）
python -m rl_zoo3.push_to_hub --algo ppo --env LunarLander-v2 -f logs/ -orga sb3

✨ 主要特性

使用近端策略優化（PPO）算法訓練智能體，在月球著陸器（LunarLander-v2）環境中取得了平均獎勵 233.56 +/- 53.89 的成績。
藉助穩定基線3庫和強化學習動物園，實現了高效的訓練和超參數優化。

📦 安裝指南

本README未提及具體安裝步驟，你可以參考以下項目鏈接進行安裝：

RL Zoo: https://github.com/DLR-RM/rl-baselines3-zoo
SB3: https://github.com/DLR-RM/stable-baselines3
SB3 Contrib: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib

💻 使用示例

基礎用法

# 下載模型並保存到logs/文件夾中
python -m rl_zoo3.load_from_hub --algo ppo --env LunarLander-v2 -orga sb3 -f logs/
python enjoy.py --algo ppo --env LunarLander-v2  -f logs/

高級用法

# 重新訓練模型
python train.py --algo ppo --env LunarLander-v2 -f logs/
# 上傳模型並生成視頻（如果可能）
python -m rl_zoo3.push_to_hub --algo ppo --env LunarLander-v2 -f logs/ -orga sb3

🔧 技術細節

超參數設置

OrderedDict([('batch_size', 64),
             ('ent_coef', 0.01),
             ('gae_lambda', 0.98),
             ('gamma', 0.999),
             ('n_envs', 16),
             ('n_epochs', 4),
             ('n_steps', 1024),
             ('n_timesteps', 1000000.0),
             ('policy', 'MlpPolicy'),
             ('normalize', False)])