S

Sac Hopper V3

由sb3開發
這是一個基於SAC算法的強化學習模型,用於在Hopper-v3環境中控制機器人跳躍運動。
下載量 44
發布時間 : 6/2/2022

模型概述

該模型使用Soft Actor-Critic (SAC)算法訓練,專門用於解決Hopper-v3環境中的連續控制任務。

模型特點

基於SAC算法
使用Soft Actor-Critic算法,適合處理連續動作空間的強化學習問題
穩定訓練
通過stable-baselines3實現,提供可靠的訓練過程
高性能
在Hopper-v3環境中達到2266.78的平均獎勵

模型能力

連續動作控制
機器人運動控制
強化學習任務解決

使用案例

機器人控制
Hopper機器人跳躍控制
控制模擬Hopper機器人的跳躍動作
平均獎勵2266.78 +/- 1121.81
強化學習研究
連續控制基準測試
可作為連續控制任務的基準模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase