T

Td3 HalfCheetah V3

由sb3開發
這是一個基於stable-baselines3庫訓練的TD3強化學習智能體,專為HalfCheetah-v3環境設計,平均獎勵達到9709.01。
下載量 23
發布時間 : 6/2/2022

模型概述

TD3(Twin Delayed DDPG)是一種深度強化學習算法,適用於連續動作空間的控制任務。該模型在HalfCheetah-v3環境中表現出色,能夠控制一個模擬的獵豹機器人高效運動。

模型特點

高性能控制
在HalfCheetah-v3環境中實現了9709.01的平均獎勵,表現優異。
穩定訓練
採用TD3算法,通過雙Q網絡和延遲策略更新等技術確保訓練穩定性。
易於集成
基於stable-baselines3框架,可輕鬆與其他RL工具和庫集成使用。

模型能力

連續動作空間控制
機器人運動控制
強化學習任務解決

使用案例

機器人控制
獵豹機器人運動控制
控制模擬獵豹機器人實現高效運動
平均獎勵達到9709.01
算法研究
強化學習算法比較
作為基準模型用於比較不同強化學習算法性能
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase