ppo-LunarLander-v2开源强化学习模型 - 免费部署助力月球着陆任务

首页

Ppo LunarLander V2

由 sb3 开发

这是一个基于PPO算法的强化学习模型，专门用于解决LunarLander-v2环境中的着陆任务。

物理学模型 #月球着陆器控制 #多环境并行训练 #近端策略优化

下载量 73

发布时间 : 6/2/2022

模型简介

该模型使用Proximal Policy Optimization (PPO)算法训练，能够在LunarLander-v2模拟环境中学习如何控制登月舱安全着陆。

模型特点

稳定训练

使用PPO算法确保训练过程的稳定性

高效学习

通过16个并行环境加速训练过程

优化超参数

使用经过优化的超参数配置

模型能力

连续动作空间控制

强化学习任务解决

模拟环境交互

使用案例

教育演示

强化学习教学

用于展示强化学习算法在实际问题中的应用

学生可以直观理解PPO算法的工作原理

算法研究

强化学习算法比较

作为基准模型用于比较不同强化学习算法的性能

平均奖励233.56 +/- 53.89

🚀 稳定基线3（Stable-Baselines3）的PPO智能体在月球着陆器环境中的应用

本项目展示了使用稳定基线3库和强化学习动物园（RL Zoo）训练的 近端策略优化（PPO） 智能体在 月球着陆器（LunarLander-v2） 环境中的表现。强化学习动物园是一个针对稳定基线3强化学习智能体的训练框架，包含超参数优化和预训练智能体。

🚀 快速开始

模型使用（借助SB3 RL Zoo）

你可以按照以下步骤使用预训练模型：

# 下载模型并保存到logs/文件夹中
python -m rl_zoo3.load_from_hub --algo ppo --env LunarLander-v2 -orga sb3 -f logs/
python enjoy.py --algo ppo --env LunarLander-v2  -f logs/

模型训练（借助RL Zoo）

若要重新训练模型，可执行以下命令：

python train.py --algo ppo --env LunarLander-v2 -f logs/
# 上传模型并生成视频（如果可能）
python -m rl_zoo3.push_to_hub --algo ppo --env LunarLander-v2 -f logs/ -orga sb3

✨ 主要特性

使用近端策略优化（PPO）算法训练智能体，在月球着陆器（LunarLander-v2）环境中取得了平均奖励 233.56 +/- 53.89 的成绩。
借助稳定基线3库和强化学习动物园，实现了高效的训练和超参数优化。

📦 安装指南

本README未提及具体安装步骤，你可以参考以下项目链接进行安装：

RL Zoo: https://github.com/DLR-RM/rl-baselines3-zoo
SB3: https://github.com/DLR-RM/stable-baselines3
SB3 Contrib: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib

💻 使用示例

基础用法

# 下载模型并保存到logs/文件夹中
python -m rl_zoo3.load_from_hub --algo ppo --env LunarLander-v2 -orga sb3 -f logs/
python enjoy.py --algo ppo --env LunarLander-v2  -f logs/

高级用法

# 重新训练模型
python train.py --algo ppo --env LunarLander-v2 -f logs/
# 上传模型并生成视频（如果可能）
python -m rl_zoo3.push_to_hub --algo ppo --env LunarLander-v2 -f logs/ -orga sb3

🔧 技术细节

超参数设置

OrderedDict([('batch_size', 64),
             ('ent_coef', 0.01),
             ('gae_lambda', 0.98),
             ('gamma', 0.999),
             ('n_envs', 16),
             ('n_epochs', 4),
             ('n_steps', 1024),
             ('n_timesteps', 1000000.0),
             ('policy', 'MlpPolicy'),
             ('normalize', False)])