dqn-LunarLander-v2開源智能體 - 免費助力解決月球著陸強化學習任務

首頁

Dqn LunarLander V2

由araffin開發

這是一個使用stable-baselines3庫訓練的DQN智能體，用於解決LunarLander-v2環境中的強化學習任務。

#月球著陸器控制 #深度Q學習 #強化學習訓練

下載量 54

發布時間 : 5/5/2022

模型概述

該模型基於深度Q網絡(DQN)算法，專門用於解決LunarLander-v2環境中的著陸控制問題。

模型特點

穩定訓練

使用stable-baselines3庫實現，提供穩定的訓練過程和可靠的性能

高效探索

採用優化的探索策略，在40,000時間步內完成探索

雙層網絡架構

使用256x256的雙層神經網絡結構，平衡了模型容量和訓練效率

模型能力

強化學習

連續控制

環境交互

決策制定

使用案例

遊戲AI

月球著陸器控制

控制虛擬月球著陸器安全著陸在指定區域

平均獎勵280.22±13.03

教育演示

強化學習教學示例

作為深度強化學習的教學案例

🚀 DQN 智能體玩轉 LunarLander-v2

本項目是一個使用 stable-baselines3 庫訓練的 DQN 智能體，用於玩 LunarLander-v2 遊戲。該模型在該遊戲中表現出色，能有效完成任務。

🚀 快速開始

模型信息

屬性	詳情
模型類型	DQN
數據集	LunarLander-v2
平均獎勵	280.22 ± 13.03

模型使用（使用 Stable-Baselines3）

基礎用法

from huggingface_sb3 import load_from_hub
from stable_baselines3 import DQN
from stable_baselines3.common.env_util import make_vec_env
from stable_baselines3.common.evaluation import evaluate_policy

# 下載檢查點
checkpoint = load_from_hub("araffin/dqn-LunarLander-v2", "dqn-LunarLander-v2.zip")
# 移除警告
kwargs = dict(target_update_interval=30)
# 加載模型
model = DQN.load(checkpoint, **kwargs)

env = make_vec_env("LunarLander-v2", n_envs=1)

# 評估
print("Evaluating model")
mean_reward, std_reward = evaluate_policy(
    model,
    env,
    n_eval_episodes=20,
    deterministic=True,
)
print(f"Mean reward = {mean_reward:.2f} +/- {std_reward:.2f}")

# 開始新的回合
obs = env.reset()

try:
    while True:
        action, _states = model.predict(obs, deterministic=True)
        obs, rewards, dones, info = env.step(action)
        env.render()
except KeyboardInterrupt:
    pass

訓練代碼（使用 Stable-baselines3）

from stable_baselines3 import DQN
from stable_baselines3.common.env_util import make_vec_env
from stable_baselines3.common.callbacks import EvalCallback

# 創建環境
env_id = "LunarLander-v2"
n_envs = 8
env = make_vec_env(env_id, n_envs=n_envs)

# 創建評估環境
eval_envs = make_vec_env(env_id, n_envs=5)

# 根據環境數量調整評估間隔
eval_freq = int(1e5)
eval_freq = max(eval_freq // n_envs, 1)

# 創建評估回調以保存最佳模型
# 並監控智能體性能
eval_callback = EvalCallback(
    eval_envs,
    best_model_save_path="./logs/",
    eval_freq=eval_freq,
    n_eval_episodes=10,
)

# 實例化智能體
# 超參數來自 https://github.com/DLR-RM/rl-baselines3-zoo
model = DQN(
    "MlpPolicy",
    env,
    learning_starts=0,
    batch_size=128,
    buffer_size=100000,
    learning_rate=7e-4,
    target_update_interval=250,
    train_freq=1,
    gradient_steps=4,
    # 探索 40000 個時間步
    exploration_fraction=0.08,
    exploration_final_eps=0.05,
    policy_kwargs=dict(net_arch=[256, 256]),
    verbose=1,
)

# 訓練智能體（你可以使用 ctrl+c 提前終止）
try:
    model.learn(total_timesteps=int(5e5), callback=eval_callback)
except KeyboardInterrupt:
    pass

# 加載最佳模型
model = DQN.load("logs/best_model.zip")