ppo - LunarLander - v2オープンソース強化学習モデル、無料でデプロイして月着陸船の安全な着陸をサポート

Home

Ppo LunarLander V2

Developed by andri

これはPPOアルゴリズムに基づく強化学習モデルで、LunarLander-v2環境向けに訓練され、月面着陸船の安全な着陸を制御するために使用されます。

物理学モデル #月面着陸船制御 #深層強化学習 #安定した訓練フレームワーク

Downloads 16

Release Time : 6/8/2022

Model Overview

このモデルはProximal Policy Optimization (PPO)アルゴリズムを使用して訓練され、LunarLander-v2シミュレーション環境で月面着陸船を制御する戦略を学習し、安全な着陸を実現できます。

Model Features

安定した訓練

PPOアルゴリズムを採用し、安定した戦略最適化プロセスを提供

効率的な学習

比較的少ない訓練ステップで効果的な制御戦略を学習可能

再現性

stable-baselines3に基づいて実装され、良好な実験再現性を有する

Model Capabilities

強化学習制御

連続行動空間処理

環境状態認識

Use Cases

ゲームAI

月面着陸船制御

LunarLander-v2環境で着陸船を安全に着陸させる

平均報酬263.23 +/- 15.11

教育デモ

強化学習教育

強化学習アルゴリズム教育の典型的な事例として

属性	详情
モデルタイプ	PPO
学習データ	LunarLander - v2

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers Supports Multiple Languages

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Ppo LunarLander V2

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 Stable - Baselines3によるPPOエージェントのLunarLander - v2プレイ

🚀 クイックスタート

💻 使用例

基本的な使用法

📚 ドキュメント

モデル情報

評価指標