dqn-MountainCar-v0开源模型 - 免费部署解决MountainCar强化学习任务

首页

Dqn MountainCar V0

由 sb3 开发

这是一个使用stable-baselines3训练的DQN智能体模型，专门用于解决MountainCar-v0环境中的强化学习任务。

分子模型 #深度Q网络 #强化学习控制 #连续动作空间

下载量 578

发布时间 : 5/19/2022

模型简介

该模型基于深度Q网络(DQN)算法，用于解决经典的MountainCar控制问题，目标是让小车通过摆动爬上山顶。

模型特点

基于深度强化学习

使用深度Q网络(DQN)算法，结合深度神经网络和强化学习技术

优化的超参数

经过精心调优的超参数组合，包括学习率、探索率等

稳定训练框架

基于stable-baselines3和RL Zoo训练框架，确保训练稳定性

模型能力

解决连续控制问题

学习最优策略

适应MountainCar环境

使用案例

教育演示

强化学习教学

用于展示深度强化学习算法在经典控制问题中的应用

平均奖励达到-103.40

算法研究

DQN算法基准测试

作为其他强化学习算法的性能基准

提供可比较的性能指标

🚀 DQN 智能体在 MountainCar-v0 环境中的应用

本项目是一个经过训练的 DQN 智能体，它在 MountainCar-v0 环境中进行学习和决策。该智能体借助 stable-baselines3 库和 RL Zoo 实现。RL Zoo 是一个针对 Stable Baselines3 强化学习智能体的训练框架，包含超参数优化和预训练智能体。

🚀 快速开始

模型使用（借助 SB3 RL Zoo）

你可以按照以下步骤使用预训练模型：

# 下载模型并保存到 logs/ 文件夹
python -m rl_zoo3.load_from_hub --algo dqn --env MountainCar-v0 -orga sb3 -f logs/
python enjoy.py --algo dqn --env MountainCar-v0  -f logs/

模型训练（借助 RL Zoo）

若要重新训练模型，可执行以下命令：

python train.py --algo dqn --env MountainCar-v0 -f logs/
# 上传模型并生成视频（若支持）
python -m rl_zoo3.push_to_hub --algo dqn --env MountainCar-v0 -f logs/ -orga sb3

📦 安装指南

文档中未明确提及安装步骤，你可参考以下链接进行安装：

RL Zoo: https://github.com/DLR-RM/rl-baselines3-zoo
SB3: https://github.com/DLR-RM/stable-baselines3
SB3 Contrib: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib

💻 使用示例

基础用法

以下代码展示了如何下载并使用预训练模型：

# 下载模型并保存到 logs/ 文件夹
python -m rl_zoo3.load_from_hub --algo dqn --env MountainCar-v0 -orga sb3 -f logs/
python enjoy.py --algo dqn --env MountainCar-v0  -f logs/

高级用法

若你需要重新训练模型并上传，可使用以下命令：

python train.py --algo dqn --env MountainCar-v0 -f logs/
# 上传模型并生成视频（若支持）
python -m rl_zoo3.push_to_hub --algo dqn --env MountainCar-v0 -f logs/ -orga sb3

🔧 技术细节

超参数设置

以下是训练该模型时使用的超参数：

OrderedDict([('batch_size', 128),
             ('buffer_size', 10000),
             ('exploration_final_eps', 0.07),
             ('exploration_fraction', 0.2),
             ('gamma', 0.98),
             ('gradient_steps', 8),
             ('learning_rate', 0.004),
             ('learning_starts', 1000),
             ('n_timesteps', 120000.0),
             ('policy', 'MlpPolicy'),
             ('policy_kwargs', 'dict(net_arch=[256, 256])'),
             ('target_update_interval', 600),
             ('train_freq', 16),
             ('normalize', False)])