P

Ppo LunarLanderContinuous V2

由sb3開發
這是一個基於PPO算法的強化學習智能體,專為LunarLanderContinuous-v2環境訓練,能夠控制登月器平穩著陸。
下載量 15
發布時間 : 6/2/2022

模型概述

該模型使用stable-baselines3庫中的PPO算法訓練,適用於連續動作空間的月球著陸器控制任務。

模型特點

高性能連續控制
針對LunarLanderContinuous-v2環境優化,能夠處理連續動作空間的控制問題
穩定訓練
使用PPO算法確保訓練過程的穩定性
並行訓練
支持16個環境並行訓練,提高訓練效率

模型能力

連續動作空間控制
強化學習決策
自主著陸控制

使用案例

航天模擬
月球著陸器控制
模擬控制登月器在月球表面平穩著陸
平均獎勵274.47 ± 24.37
教育研究
強化學習教學
作為PPO算法的教學示例
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase