P

Ppo Pendulum V1

由ernestumorga開發
這是一個基於PPO算法的強化學習模型,用於解決Pendulum-v1環境中的控制問題。
下載量 16
發布時間 : 6/7/2022

模型概述

該模型使用PPO(Proximal Policy Optimization)算法在Pendulum-v1環境中進行訓練,旨在實現倒立擺的穩定控制。

模型特點

基於PPO算法
使用PPO算法進行訓練,這是一種先進的策略優化方法,能夠在保持訓練穩定性的同時實現高效學習。
多環境並行訓練
支持4個環境並行訓練(n_envs=4),提高了訓練效率。
狀態依賴探索
使用狀態依賴探索(use_sde=True),增強了探索能力。

模型能力

倒立擺控制
連續動作空間處理
強化學習策略優化

使用案例

控制問題
倒立擺平衡控制
控制倒立擺使其保持直立狀態
平均獎勵:-227.99 +/- 144.65
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase