td3-HalfCheetah-v3オープンソース強化学習エージェント - HalfCheetah環境で高報酬を獲得するサポート

Td3 HalfCheetah V3

Developed by sb3

これはstable-baselines3ライブラリで訓練されたTD3強化学習エージェントで、HalfCheetah-v3環境向けに設計されており、平均報酬は9709.01を達成しています。

Downloads 23

Release Time : 6/2/2022

Model Overview

TD3（Twin Delayed DDPG）は、連続動作空間の制御タスクに適した深層強化学習アルゴリズムです。このモデルはHalfCheetah-v3環境で優れた性能を発揮し、シミュレートされたチーターロボットの効率的な運動を制御できます。

Model Features

高性能制御

HalfCheetah-v3環境で9709.01の平均報酬を達成し、優れた性能を示しています。

安定した訓練

TD3アルゴリズムを採用し、二重Qネットワークや遅延ポリシー更新などの技術により訓練の安定性を確保しています。

容易な統合

stable-baselines3フレームワークに基づいており、他のRLツールやライブラリと簡単に統合して使用できます。

Model Capabilities

連続動作空間制御

ロボット運動制御

強化学習タスク解決

Use Cases

ロボット制御

チーターロボットの運動制御

シミュレートされたチーターロボットを制御して効率的な運動を実現

平均報酬9709.01を達成

アルゴリズム研究

強化学習アルゴリズムの比較

異なる強化学習アルゴリズムの性能を比較するためのベンチマークモデルとして使用

属性	详情
モデルタイプ	TD3
タスク	強化学習
データセット	HalfCheetah-v3
平均報酬	9709.01 +/- 104.84

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers Supports Multiple Languages

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Td3 HalfCheetah V3

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 TD3 エージェントが HalfCheetah-v3 をプレイ

🚀 クイックスタート

📦 インストール

💻 使用例

基本的な使用法

高度な使用法

🔧 技術詳細

ハイパーパラメータ

モデル情報