T

Td3 MountainCarContinuous V0

由sb3開發
一個基於stable-baselines3庫訓練的TD3強化學習智能體,專為MountainCarContinuous-v0環境設計。
下載量 203
發布時間 : 6/2/2022

模型概述

該模型使用Twin Delayed DDPG (TD3)算法訓練,用於解決連續動作空間的MountainCar任務,目標是讓小車高效到達山頂。

模型特點

高效連續控制
採用TD3算法,特別適合處理連續動作空間的控制問題
穩定訓練
通過雙Q網絡和延遲策略更新等技術提高訓練穩定性
集成噪聲機制
使用Ornstein-Uhlenbeck噪聲策略增強探索能力

模型能力

連續動作空間控制
強化學習任務解決
環境交互學習

使用案例

經典控制問題
MountainCar連續控制
控制小車在連續動作空間中到達山頂
平均獎勵達到93.46
強化學習研究
算法基準測試
作為TD3算法在連續控制任務中的性能基準
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase