T

Td3 Hopper V3

由sb3開發
這是一個基於stable-baselines3庫訓練的TD3智能體模型,專門用於Hopper-v3環境中的強化學習任務。
下載量 30
發布時間 : 6/2/2022

模型概述

該模型使用Twin Delayed DDPG (TD3)算法訓練,適用於連續動作空間的強化學習任務,特別是在Hopper-v3環境中表現出色。

模型特點

高性能控制
在Hopper-v3環境中實現了3604.63的平均獎勵,表現優異。
穩定訓練
採用TD3算法,有效解決了DDPG算法中的高估問題,訓練更加穩定。
簡單集成
可與stable-baselines3和RL Zoo框架無縫集成,便於使用和擴展。

模型能力

連續動作空間控制
強化學習任務執行
機器人運動控制

使用案例

機器人控制
單腿機器人跳躍控制
控制模擬環境中的單腿機器人完成跳躍和平衡任務
平均獎勵達到3604.63
算法研究
強化學習算法比較
作為基準模型用於比較不同強化學習算法的性能
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase