P

Ppo LunarLander V2

由sb3開發
這是一個基於PPO算法的強化學習模型,專門用於解決LunarLander-v2環境中的著陸任務。
下載量 73
發布時間 : 6/2/2022

模型概述

該模型使用Proximal Policy Optimization (PPO)算法訓練,能夠在LunarLander-v2模擬環境中學習如何控制登月艙安全著陸。

模型特點

穩定訓練
使用PPO算法確保訓練過程的穩定性
高效學習
通過16個並行環境加速訓練過程
優化超參數
使用經過優化的超參數配置

模型能力

連續動作空間控制
強化學習任務解決
模擬環境交互

使用案例

教育演示
強化學習教學
用於展示強化學習算法在實際問題中的應用
學生可以直觀理解PPO算法的工作原理
算法研究
強化學習算法比較
作為基準模型用於比較不同強化學習算法的性能
平均獎勵233.56 +/- 53.89
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase