td3-Hopper-v3オープンソースエージェントモデル - 無料デプロイでHopper-v3環境の強化学習を支援

ホーム

Td3 Hopper V3

sb3によって開発

これはstable-baselines3ライブラリで訓練されたTD3エージェントモデルで、Hopper-v3環境における強化学習タスク専用です。

物理学モデル #強化学習制御 #ロボット運動制御 #連続動作空間

ダウンロード数 30

リリース時間 : 6/2/2022

モデル概要

このモデルはTwin Delayed DDPG (TD3)アルゴリズムで訓練されており、連続動作空間の強化学習タスク、特にHopper-v3環境で優れた性能を発揮します。

モデル特徴

高性能制御

Hopper-v3環境で3604.63の平均報酬を達成し、優れた性能を示しています。

安定した訓練

TD3アルゴリズムを採用し、DDPGアルゴリズムの過大評価問題を効果的に解決し、より安定した訓練を実現しています。

簡単な統合

stable-baselines3およびRL Zooフレームワークとシームレスに統合可能で、使用と拡張が容易です。

モデル能力

連続動作空間制御

強化学習タスク実行

ロボット運動制御

使用事例

ロボット制御

単脚ロボットの跳躍制御

シミュレーション環境内の単脚ロボットを制御して跳躍とバランスタスクを完了させる

平均報酬が3604.63に達する

アルゴリズム研究

強化学習アルゴリズムの比較

異なる強化学習アルゴリズムの性能を比較するためのベンチマークモデルとして使用

属性	详情
モデルタイプ	TD3
データセット	Hopper-v3
平均報酬	3604.63 +/- 4.84
タスク	強化学習

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Td3 Hopper V3

モデル概要

モデル特徴

モデル能力

使用事例

🚀 TD3エージェントによるHopper-v3のプレイ

🚀 クイックスタート

💻 使用例

🔧 学習方法

📚 詳細ドキュメント

ハイパーパラメータ

📦 モデル情報