decision-transformer-gym-halfcheetah-expertオープンソース決定モデル - 専門家の軌跡データに基づいて決定を支援

ホーム

Decision Transformer Gym Halfcheetah Expert

edbeechingによって開発

これはGym HalfCheetah環境からサンプリングされた専門家軌跡で訓練された意思決定トランスフォーマーモデルです。

物理学モデル

Transformers

#強化学習制御 #専門家軌跡模倣 #連続動作意思決定

ダウンロード数 98

リリース時間 : 3/16/2022

モデル概要

このモデルは意思決定トランスフォーマーアーキテクチャを使用し、Gym HalfCheetah環境の連続制御タスク専用に設計されており、環境状態に基づいて最適な動作を予測できます。

モデル特徴

専門家軌跡訓練

モデルはGym HalfCheetah環境からサンプリングされた専門家軌跡で訓練され、専門家の戦略を学習できます。

状態正規化

詳細な正規化係数(平均と標準偏差)を提供し、入力状態が正しく処理されることを保証します。

シーケンシャル意思決定

Transformerアーキテクチャに基づき、履歴状態情報を考慮したシーケンシャル意思決定問題を処理できます。

モデル能力

連続動作空間制御

強化学習戦略予測

ロボット制御シミュレーション

使用事例

ロボット制御

HalfCheetahシミュレーション制御

Gym HalfCheetah環境で効率的な運動制御を実現

専門家戦略を学習し、専門家に類似した制御効果を実現できます

強化学習研究

意思決定トランスフォーマー応用研究

連続制御タスクにおける意思決定トランスフォーマーの応用例として

Mujoco環境における意思決定トランスフォーマーの有効性を検証

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Decision Transformer Gym Halfcheetah Expert

モデル概要

モデル特徴

モデル能力

使用事例

🚀 デシジョントランスフォーマーモデル（Gym HalfCheetah環境からサンプリングされたエキスパート軌跡で学習）

🚀 クイックスタート