dqn-Acrobot-v1開源強化學習智能體 - 免費解決Acrobot-v1控制難題

首頁

Dqn Acrobot V1

由sb3開發

這是一個基於 stable-baselines3 庫訓練的 DQN 強化學習智能體，專門用於解決 Acrobot-v1 控制問題。

物理學模型 #雙擺控制 #深度Q網絡 #強化學習訓練

下載量 403

發布時間 : 6/2/2022

模型概述

該模型使用深度Q網絡(DQN)算法在Acrobot-v1環境中進行訓練，能夠學習如何控制雙連桿擺系統以達到目標狀態。

模型特點

基於穩定強化學習框架

使用 stable-baselines3 庫實現，這是一個可靠的強化學習框架

優化的超參數配置

經過調優的超參數設置，包括學習率、探索策略等

完整的訓練流程支持

可通過 RL Zoo 框架進行訓練、評估和部署

模型能力

強化學習控制

連續動作空間處理

環境狀態感知

使用案例

學術研究

強化學習算法比較

可作為基準模型與其他強化學習算法在Acrobot環境中的表現進行比較

平均獎勵-72.10 ±6.44

教育演示

強化學習教學案例

用於展示DQN算法在控制問題中的應用

🚀 DQN 智能體在 Acrobot-v1 環境中的應用

本項目是一個經過訓練的 DQN 智能體，用於在 Acrobot-v1 環境中進行強化學習。它藉助 stable-baselines3 庫和 RL Zoo 實現。RL Zoo 是 Stable Baselines3 強化學習智能體的訓練框架，包含超參數優化和預訓練智能體。

🚀 快速開始

本項目展示了使用 DQN 智能體在 Acrobot-v1 環境中進行強化學習的訓練和應用。

✨ 主要特性

使用 DQN 算法在 Acrobot-v1 環境中進行訓練。
藉助 Stable Baselines3 庫和 RL Zoo 框架，實現高效訓練和管理。
提供詳細的使用和訓練步驟，方便復現和擴展。

📦 安裝指南

本項目依賴於 Stable Baselines3 庫和 RL Zoo 框架，你可以通過以下鏈接獲取相關資源：

RL Zoo: https://github.com/DLR-RM/rl-baselines3-zoo
SB3: https://github.com/DLR-RM/stable-baselines3
SB3 Contrib: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib

💻 使用示例

基礎用法

# 下載模型並保存到 logs/ 文件夾
python -m rl_zoo3.load_from_hub --algo dqn --env Acrobot-v1 -orga sb3 -f logs/
python enjoy.py --algo dqn --env Acrobot-v1  -f logs/

高級用法

# 使用 RL Zoo 進行訓練
python train.py --algo dqn --env Acrobot-v1 -f logs/
# 上傳模型並生成視頻（如果可能）
python -m rl_zoo3.push_to_hub --algo dqn --env Acrobot-v1 -f logs/ -orga sb3

🔧 技術細節

超參數設置

OrderedDict([('batch_size', 128),
             ('buffer_size', 50000),
             ('exploration_final_eps', 0.1),
             ('exploration_fraction', 0.12),
             ('gamma', 0.99),
             ('gradient_steps', -1),
             ('learning_rate', 0.00063),
             ('learning_starts', 0),
             ('n_timesteps', 100000.0),
             ('policy', 'MlpPolicy'),
             ('policy_kwargs', 'dict(net_arch=[256, 256])'),
             ('target_update_interval', 250),
             ('train_freq', 4),
             ('normalize', False)])