P

Ppo LunarLander V2

由andri開發
這是一個基於PPO算法的強化學習模型,專門針對LunarLander-v2環境訓練,用於控制月球著陸器安全著陸。
下載量 16
發布時間 : 6/8/2022

模型概述

該模型使用Proximal Policy Optimization (PPO)算法訓練,能夠在LunarLander-v2模擬環境中學習控制月球著陸器的策略,實現安全著陸。

模型特點

穩定訓練
採用PPO算法,提供穩定的策略優化過程
高效學習
能夠在相對較少的訓練步數內學習有效的控制策略
可復現性
基於stable-baselines3實現,具有良好的實驗可復現性

模型能力

強化學習控制
連續動作空間處理
環境狀態感知

使用案例

遊戲AI
月球著陸器控制
在LunarLander-v2環境中控制著陸器安全著陸
平均獎勵達到263.23 +/- 15.11
教育演示
強化學習教學
作為強化學習算法教學的典型案例
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase