td3-MountainCarContinuous-v0開源智能體 - 專為特定環境設計的強化學習工具

首頁

Td3 MountainCarContinuous V0

由sb3開發

一個基於stable-baselines3庫訓練的TD3強化學習智能體，專為MountainCarContinuous-v0環境設計。

物理學模型 #連續動作控制 #深度強化學習 #MountainCar環境

下載量 203

發布時間 : 6/2/2022

模型概述

該模型使用Twin Delayed DDPG (TD3)算法訓練，用於解決連續動作空間的MountainCar任務，目標是讓小車高效到達山頂。

模型特點

高效連續控制

採用TD3算法，特別適合處理連續動作空間的控制問題

穩定訓練

通過雙Q網絡和延遲策略更新等技術提高訓練穩定性

集成噪聲機制

使用Ornstein-Uhlenbeck噪聲策略增強探索能力

模型能力

連續動作空間控制

強化學習任務解決

環境交互學習

使用案例

經典控制問題

MountainCar連續控制

控制小車在連續動作空間中到達山頂

平均獎勵達到93.46

強化學習研究

算法基準測試

作為TD3算法在連續控制任務中的性能基準

屬性	詳情
模型名稱	TD3
任務類型	強化學習
數據集	MountainCarContinuous-v0
平均獎勵	93.46 ± 0.05

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Td3 MountainCarContinuous V0

模型概述

模型特點

模型能力

使用案例

🚀 穩定基線3（Stable-Baselines3）之TD3智能體在MountainCarContinuous-v0環境中的應用

模型指標

🚀 快速開始

使用已訓練模型（藉助 SB3 RL Zoo）

模型訓練（藉助 RL Zoo）

📚 詳細文檔

超參數設置