D

Dqn LunarLander V2

由araffin開發
這是一個使用stable-baselines3庫訓練的DQN智能體,用於解決LunarLander-v2環境中的強化學習任務。
下載量 54
發布時間 : 5/5/2022

模型概述

該模型基於深度Q網絡(DQN)算法,專門用於解決LunarLander-v2環境中的著陸控制問題。

模型特點

穩定訓練
使用stable-baselines3庫實現,提供穩定的訓練過程和可靠的性能
高效探索
採用優化的探索策略,在40,000時間步內完成探索
雙層網絡架構
使用256x256的雙層神經網絡結構,平衡了模型容量和訓練效率

模型能力

強化學習
連續控制
環境交互
決策制定

使用案例

遊戲AI
月球著陸器控制
控制虛擬月球著陸器安全著陸在指定區域
平均獎勵280.22±13.03
教育演示
強化學習教學示例
作為深度強化學習的教學案例
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase