S

Sac Pendulum V1

由sb3開發
這是一個基於SAC算法的強化學習模型,用於解決Pendulum-v1環境中的控制問題。
下載量 39
發布時間 : 5/22/2022

模型概述

該模型使用穩定基線3庫中的SAC算法訓練,專門用於解決Pendulum-v1環境中的倒立擺控制問題。

模型特點

基於SAC算法
使用Soft Actor-Critic算法,結合了策略梯度和Q學習的優點,適合連續動作空間的控制問題。
穩定訓練
通過stable-baselines3庫實現,提供了穩定的訓練過程和可靠的性能。
超參數優化
模型經過超參數優化,在Pendulum-v1環境中表現良好。

模型能力

連續動作空間控制
強化學習策略優化
倒立擺平衡控制

使用案例

控制問題
倒立擺控制
控制倒立擺保持直立狀態
平均獎勵-176.33 +/- 101.55
強化學習研究
SAC算法基準測試
作為SAC算法在連續控制任務中的基準模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase