decision-transformer-gym-hopper-mediumオープンソースモデル - 連続制御タスクの決定最適化を支援します

ホーム

Decision Transformer Gym Hopper Medium

edbeechingによって開発

これはGym Hopper環境で中程度のパフォーマンス軌跡を使用して訓練された意思決定トランスフォーマーモデルで、連続制御タスクに適しています。

物理学モデル

Transformers

#強化学習制御 #軌跡決定最適化 #連続行動空間

ダウンロード数 6,518

リリース時間 : 3/16/2022

モデル概要

このモデルは意思決定トランスフォーマーアーキテクチャに基づいており、Gym Hopper環境の連続制御タスク向けに特別に訓練されており、環境状態に応じて適切な動作決定を生成できます。

モデル特徴

軌跡ベースの意思決定生成

モデルは中程度のパフォーマンス軌跡を学習することで意思決定を生成し、連続制御タスクに適用できます。

状態正規化

詳細な正規化係数を提供し、入力状態が正しく処理されることを保証します。

強化学習アプリケーション

強化学習環境向けに設計されており、特にGym Hopperなどの連続制御タスクに適しています。

モデル能力

連続行動空間での意思決定

強化学習環境制御

軌跡学習

使用事例

ロボット制御

Hopperロボットの運動制御

Hopperロボットのジャンプとバランスを制御

中程度の運動性能を実現

強化学習研究

意思決定トランスフォーマーアルゴリズムの検証

連続制御タスクにおける意思決定トランスフォーマーの性能を検証するために使用

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Decision Transformer Gym Hopper Medium

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Gym Hopper環境からサンプリングされた中程度の軌跡で学習されたDecision Transformerモデル