P

Ppo Pendulum V1

由sb3開發
這是一個基於PPO算法的強化學習模型,專門用於解決Pendulum-v1環境中的控制問題。
下載量 51
發布時間 : 5/4/2022

模型概述

該模型使用Stable Baselines3庫中的PPO算法訓練,適用於Pendulum-v1環境,能夠學習如何控制倒立擺保持直立狀態。

模型特點

使用SDE技術
採用了狀態依賴探索(State-Dependent Exploration)技術,提高了探索效率
穩定訓練
基於PPO算法,確保訓練過程的穩定性
高效學習
通過合理的超參數設置,實現高效學習

模型能力

倒立擺控制
連續動作空間處理
強化學習任務解決

使用案例

控制問題
倒立擺平衡控制
控制倒立擺保持在直立位置
平均獎勵達到-230.42 ±142.54
教學演示
強化學習教學示例
作為強化學習算法的教學演示案例
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase