decision-transformer-gym-hopper-expertオープンソースモデル - エキスパート軌跡に基づく意思決定能力の向上

ホーム

Decision Transformer Gym Hopper Expert

edbeechingによって開発

これはGym Hopper環境のエキスパート軌跡データで訓練された意思決定トランスフォーマーモデルです。

物理学モデル

Transformers

#強化学習制御 #連続行動決定 #軌跡模倣学習

ダウンロード数 727

リリース時間 : 3/16/2022

モデル概要

このモデルは意思決定トランスフォーマーアーキテクチャを使用し、Gym Hopperの連続制御環境に特化して訓練されており、環境状態に基づいて有効な制御戦略を生成できます。

モデル特徴

エキスパート軌跡訓練

モデルはGym Hopper環境のエキスパート軌跡データに基づいて訓練され、高品質な制御戦略を学習できます。

意思決定トランスフォーマーアーキテクチャ

革新的な意思決定トランスフォーマーアーキテクチャを採用し、強化学習問題をシーケンスモデリング問題に変換します。

正規化処理

詳細な入力正規化係数を提供し、モデル入力データが適切な分布範囲内にあることを保証します。

モデル能力

連続行動空間制御

強化学習戦略生成

ロボット制御シミュレーション

使用事例

ロボット制御

Hopperロボット制御

Gym Hopper環境でロボットのジャンプとバランスタスクを制御

ロボットのバランス維持と移動を可能にする有効な制御戦略を生成できる

強化学習研究

意思決定トランスフォーマーアルゴリズム検証

連続制御タスクにおける意思決定トランスフォーマーの性能を研究・検証するために使用

プロパティ	詳細
モデルタイプ	決定トランスフォーマー
学習データ	Gym Hopper環境からサンプリングされたエキスパート軌跡

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Decision Transformer Gym Hopper Expert

モデル概要

モデル特徴

モデル能力

使用事例

🚀 決定トランスフォーマーモデル（Gym Hopper環境のエキスパート軌跡で学習）

🚀 クイックスタート

📚 ドキュメント