ppo-CartPole-v1オープンソースエージェントモデル - 無料でデプロイして強化学習タスクを解決する

ホーム

Ppo CartPole V1

somya17banによって開発

これはstable-baselines3ライブラリで訓練されたPPOエージェントモデルで、CartPole-v1強化学習タスクを解決するために特別に設計されています。

物理学モデル #カートポール平衡制御 #深層強化学習 #安定した訓練

ダウンロード数 14

リリース時間 : 5/11/2025

モデル概要

このモデルはPPO（Proximal Policy Optimization）アルゴリズムに基づいており、CartPole-v1環境における棒の平衡問題を制御するために使用されます。

モデル特徴

効率的な強化学習

PPOアルゴリズムを使用して効率的なポリシー最適化を実現し、連続動作空間問題に適しています

安定した訓練

PPOアルゴリズムはポリシー更新の範囲を制限することで、訓練プロセスの安定性を確保します

CartPole-v1環境への適応

CartPole-v1環境に特化して最適化されており、最大報酬を達成できます

モデル能力

強化学習制御

棒の平衡制御

連続動作空間での意思決定

使用事例

教育デモ

強化学習の教育

古典的な制御問題における強化学習アルゴリズムの応用をデモンストレーションするために使用されます

棒の平衡を安定して維持し、最大報酬を獲得できます

アルゴリズム研究

PPOアルゴリズムのベンチマークテスト

PPOアルゴリズムの性能基準として使用されます

平均報酬は500.00 +/- 0.00に達します

属性	详情
モデルタイプ	PPO
タスクタイプ	強化学習
データセット	CartPole-v1
平均報酬	500.00 +/- 0.00

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Ppo CartPole V1

モデル概要

モデル特徴

モデル能力

使用事例

🚀 PPOエージェントによるCartPole-v1のプレイ

🚀 クイックスタート

モデル情報

💻 使用例

基本的な使用法