🚀 稳定基线3(Stable-Baselines3)PPO智能体在seals/Walker2d-v0环境中的应用
本项目展示了使用 稳定基线3库 和 RL Zoo 训练的 PPO 智能体在 seals/Walker2d-v0 环境中的表现。RL Zoo 是一个用于 Stable Baselines3 强化学习智能体的训练框架,包含超参数优化和预训练智能体。
模型信息
属性 |
详情 |
模型类型 |
PPO |
训练环境 |
seals/Walker2d-v0 |
平均奖励 |
1429.13 ± 411.75 |
🚀 快速开始
模型使用(借助SB3 RL Zoo)
你可以按照以下步骤下载并运行预训练模型:
# 下载模型并保存到logs/文件夹
python -m utils.load_from_hub --algo ppo --env seals/Walker2d-v0 -orga ernestumorga -f logs/
python enjoy.py --algo ppo --env seals/Walker2d-v0 -f logs/
模型训练(借助RL Zoo)
若要重新训练模型,可以使用以下命令:
python train.py --algo ppo --env seals/Walker2d-v0 -f logs/
# 上传模型并生成视频(如果可能)
python -m utils.push_to_hub --algo ppo --env seals/Walker2d-v0 -f logs/ -orga ernestumorga
💻 使用示例
基础用法
以下是使用预训练模型的基本命令:
# 下载模型并保存到logs/文件夹
python -m utils.load_from_hub --algo ppo --env seals/Walker2d-v0 -orga ernestumorga -f logs/
python enjoy.py --algo ppo --env seals/Walker2d-v0 -f logs/
高级用法
若要重新训练模型并上传到指定组织,可以使用以下命令:
python train.py --algo ppo --env seals/Walker2d-v0 -f logs/
# 上传模型并生成视频(如果可能)
python -m utils.push_to_hub --algo ppo --env seals/Walker2d-v0 -f logs/ -orga ernestumorga
🔧 技术细节
超参数设置
以下是训练该模型所使用的超参数:
OrderedDict([('batch_size', 8),
('clip_range', 0.4),
('ent_coef', 0.00013057334805552262),
('gae_lambda', 0.92),
('gamma', 0.98),
('learning_rate', 3.791707778339674e-05),
('max_grad_norm', 0.6),
('n_envs', 1),
('n_epochs', 5),
('n_steps', 2048),
('n_timesteps', 1000000.0),
('normalize', True),
('policy', 'MlpPolicy'),
('policy_kwargs',
'dict(activation_fn=nn.ReLU, net_arch=[dict(pi=[256, 256], '
'vf=[256, 256])])'),
('vf_coef', 0.6167177795726859),
('normalize_kwargs', {'norm_obs': True, 'norm_reward': False})])