ppo-MountainCarContinuous-v0オープンソースエージェント - 山地車の連続制御問題を効果的に解決

ホーム

Ppo MountainCarContinuous V0

sb3によって開発

これはPPOアルゴリズムに基づく強化学習エージェントで、MountainCarContinuous-v0環境向けに特別に訓練されており、連続制御のマウンテンカー問題を効果的に解決できます。

物理学モデル #連続動作制御 #少数サンプルでの効率的な訓練 #カスタム戦略最適化

ダウンロード数 433

リリース時間 : 5/20/2022

モデル概要

このモデルはstable-baselines3ライブラリのPPOアルゴリズムを使用して訓練され、MountainCarContinuous-v0環境に適しており、マウンテンカーを山頂に到達させる方法を学習できます。

モデル特徴

効率的な訓練

PPOアルゴリズムを使用して訓練し、少ない訓練ステップで高い平均報酬を獲得できます。

安定した性能

モデルの性能は安定しており、平均報酬は94.57±0.45に達します。

パラメータ最適化

RL Zooフレームワークを使用してハイパーパラメータを最適化し、モデルの性能を最高に保証します。

モデル能力

連続動作空間制御

強化学習タスク解決

環境との対話学習

使用事例

強化学習研究

連続制御ベンチマークテスト

連続制御タスクのベンチマークモデルとして比較研究に使用可能

平均報酬94.57±0.45

教育デモンストレーション

強化学習教育事例

連続制御タスクにおけるPPOアルゴリズムの応用を展示するために使用

属性	详情
モデルタイプ	PPO
訓練データ	MountainCarContinuous-v0

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Ppo MountainCarContinuous V0

モデル概要

モデル特徴

モデル能力

使用事例

🚀 PPOエージェントによるMountainCarContinuous-v0のプレイ

📦 インストール

💻 使用例

基本的な使用法

高度な使用法

🔧 技術詳細

ハイパーパラメータ