P

Ppo LunarLander V2

由sofiascat開發
這是一個基於PPO算法的強化學習模型,專門針對LunarLander-v2環境進行訓練,能夠控制登月器安全著陸。
下載量 14
發布時間 : 4/12/2025

模型概述

該模型使用Proximal Policy Optimization (PPO)算法在LunarLander-v2環境中訓練,用於解決連續控制問題,特別是航天器著陸任務。

模型特點

穩定訓練
PPO算法提供穩定的策略更新,避免訓練過程中的劇烈波動
連續動作控制
能夠處理連續動作空間,適合精確控制任務
高效學習
在相對較少的訓練步數內達到較好的性能

模型能力

連續動作控制
強化學習決策
航天器著陸模擬

使用案例

航天模擬
登月器著陸控制
模擬控制登月器在月球表面安全著陸
平均獎勵達到263.22 +/- 22.53
教育演示
強化學習教學
作為強化學習算法教學的典型案例
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase