ppo-Pendulum-v1开源强化学习模型 - 免费解决Pendulum-v1环境控制难题

Home

Ppo Pendulum V1

Developed by sb3

这是一个基于PPO算法的强化学习模型，专门用于解决Pendulum-v1环境中的控制问题。

物理学模型 #倒立摆控制 #连续动作空间 #随机策略优化

Downloads 51

Release Time : 5/4/2022

Model Overview

该模型使用Stable Baselines3库中的PPO算法训练，适用于Pendulum-v1环境，能够学习如何控制倒立摆保持直立状态。

Model Features

使用SDE技术

采用了状态依赖探索(State-Dependent Exploration)技术，提高了探索效率

稳定训练

基于PPO算法，确保训练过程的稳定性

高效学习

通过合理的超参数设置，实现高效学习

Model Capabilities

倒立摆控制

连续动作空间处理

强化学习任务解决

Use Cases

控制问题

倒立摆平衡控制

控制倒立摆保持在直立位置

平均奖励达到-230.42 ±142.54

教学演示

强化学习教学示例

作为强化学习算法的教学演示案例

🚀 PPO 智能体在 Pendulum-v1 环境中的应用

本项目是一个经过训练的 PPO 智能体，它在 Pendulum-v1 环境中进行学习和决策。该智能体借助 stable-baselines3 库和 RL Zoo 实现，其中 RL Zoo 是一个用于 Stable Baselines3 强化学习智能体的训练框架，包含超参数优化和预训练智能体。

🚀 快速开始

使用已训练模型

你可以按照以下步骤使用已训练的模型：

# 下载模型并保存到 logs/ 文件夹
python -m rl_zoo3.load_from_hub --algo ppo --env Pendulum-v1 -orga sb3 -f logs/
python enjoy.py --algo ppo --env Pendulum-v1  -f logs/

模型训练

如果你想重新训练模型，可以使用以下命令：

python train.py --algo ppo --env Pendulum-v1 -f logs/
# 上传模型并生成视频（如果可能）
python -m rl_zoo3.push_to_hub --algo ppo --env Pendulum-v1 -f logs/ -orga sb3

💻 使用示例

基础用法

from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env

# 创建环境
env_id = "Pendulum-v1"
env = make_vec_env(env_id, n_envs=1)

# 实例化智能体
model = PPO(
    "MlpPolicy",
    env,
    gamma=0.98,
    # 使用 https://proceedings.mlr.press/v164/raffin22a.html
    use_sde=True,
    sde_sample_freq=4,
    learning_rate=1e-3,
    verbose=1,
)

# 训练智能体
model.learn(total_timesteps=int(1e5))

🔧 技术细节

超参数设置

OrderedDict([('clip_range', 0.2),
             ('ent_coef', 0.0),
             ('gae_lambda', 0.95),
             ('gamma', 0.9),
             ('learning_rate', 0.001),
             ('n_envs', 4),
             ('n_epochs', 10),
             ('n_steps', 1024),
             ('n_timesteps', 100000.0),
             ('policy', 'MlpPolicy'),
             ('sde_sample_freq', 4),
             ('use_sde', True),
             ('normalize', False)])