decision-transformer-gym-halfcheetah-mediumオープンソース強化学習モデル

ホーム

Decision Transformer Gym Halfcheetah Medium

edbeechingによって開発

これは意思決定トランスフォーマーアーキテクチャに基づく強化学習モデルで、Gym HalfCheetah連続制御環境向けに特別に訓練され、中程度の品質の軌跡データを使用しています。

物理学モデル

Transformers

#強化学習制御 #軌跡シーケンスモデリング #ロボット運動意思決定

ダウンロード数 27

リリース時間 : 3/16/2022

モデル概要

このモデルは意思決定トランスフォーマーアーキテクチャを採用しており、連続制御タスクを処理でき、特にロボット制御や物理シミュレーション環境における意思決定問題に適しています。

モデル特徴

軌跡モデリング能力

中程度品質の軌跡データにおける動作シーケンスを効果的にモデリングおよび予測可能

連続制御最適化

連続制御タスク向けに特別に最適化されており、ロボット制御シナリオに適している

標準化処理

完全な正規化係数を提供し、入力データの前処理を容易にする

モデル能力

連続動作空間予測

強化学習方策生成

物理シミュレーション環境制御

使用事例

ロボット制御

HalfCheetah運動制御

Gym HalfCheetah環境で効率的な運動制御を実現

ロボットの安定した運動を実現する効果的な制御方策を生成可能

強化学習研究

意思決定トランスフォーマー応用研究

連続制御タスクにおける意思決定トランスフォーマーのベンチマークモデルとして

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Decision Transformer Gym Halfcheetah Medium

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Gym HalfCheetah環境からサンプリングされた中程度の軌跡で学習されたDecision Transformerモデル

🚀 クイックスタート

📄 ライセンス