P

Ppo LunarLanderContinuous V2

Developed by sb3
這是一個基於PPO算法的強化學習智能體,專為LunarLanderContinuous-v2環境訓練,能夠控制登月器平穩著陸。
Downloads 15
Release Time : 6/2/2022

Model Overview

該模型使用stable-baselines3庫中的PPO算法訓練,適用於連續動作空間的月球著陸器控制任務。

Model Features

高性能連續控制
針對LunarLanderContinuous-v2環境優化,能夠處理連續動作空間的控制問題
穩定訓練
使用PPO算法確保訓練過程的穩定性
並行訓練
支持16個環境並行訓練,提高訓練效率

Model Capabilities

連續動作空間控制
強化學習決策
自主著陸控制

Use Cases

航天模擬
月球著陸器控制
模擬控制登月器在月球表面平穩著陸
平均獎勵274.47 ± 24.37
教育研究
強化學習教學
作為PPO算法的教學示例
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase