P

PPO LunarLander V2

由BioGeek開發
這是一個基於PPO算法的強化學習模型,專為LunarLander-v2環境訓練,能夠控制月球著陸器安全著陸。
下載量 102
發布時間 : 5/21/2022

模型概述

該模型使用Proximal Policy Optimization (PPO)算法在LunarLander-v2環境中訓練,用於解決連續動作空間的強化學習問題。

模型特點

穩定訓練
使用PPO算法確保訓練過程的穩定性
連續動作控制
能夠處理連續動作空間的控制問題
高性能表現
在LunarLander-v2環境中達到271.97的平均獎勵

模型能力

連續動作控制
強化學習任務解決
環境交互決策

使用案例

遊戲AI
月球著陸器控制
模擬控制月球著陸器安全著陸
平均獎勵271.97 +/- 16.91
教育演示
強化學習教學
展示PPO算法在實際環境中的應用
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase