P

Ppo Pendulum V1

sb3によって開発
これはPPOアルゴリズムに基づく強化学習モデルで、Pendulum-v1環境における制御問題を解決するために特別に設計されています。
ダウンロード数 51
リリース時間 : 5/4/2022

モデル概要

このモデルはStable Baselines3ライブラリのPPOアルゴリズムでトレーニングされ、Pendulum-v1環境に適用可能で、倒立振子を直立状態に保つ制御方法を学習できます。

モデル特徴

SDE技術の使用
状態依存探索(State-Dependent Exploration)技術を採用し、探索効率を向上させています
安定したトレーニング
PPOアルゴリズムに基づき、トレーニングプロセスの安定性を確保しています
効率的な学習
適切なハイパーパラメータ設定により、効率的な学習を実現しています

モデル能力

倒立振子制御
連続動作空間処理
強化学習タスク解決

使用事例

制御問題
倒立振子のバランス制御
倒立振子を直立位置に保つ制御
平均報酬が-230.42 ±142.54を達成
教育デモンストレーション
強化学習の教育例
強化学習アルゴリズムの教育デモンストレーションケースとして
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase