S

Sealswalker2d V0

ernestumorgaによって開発
これはPPOアルゴリズムに基づく強化学習エージェントで、seals/Walker2d-v0環境向けに訓練され、Walker2dロボットの歩行制御タスクに使用されます。
ダウンロード数 0
リリース時間 : 5/27/2022

モデル概要

このモデルはStable Baselines3ライブラリのPPOアルゴリズムで訓練されており、seals/Walker2d-v0環境で安定した歩行制御を実現できます。

モデル特徴

効率的な方策最適化
PPOアルゴリズムを使用して安定かつ効率的な方策最適化を実現し、連続行動空間の制御タスクに適しています。
カスタムネットワークアーキテクチャ
256ノードの2層MLPネットワーク構造を採用し、活性化関数はReLUで、表現力と訓練効率のバランスを取っています。
パラメータ最適化
学習率、割引係数などの重要なハイパーパラメータを慎重に調整しています。

モデル能力

連続行動空間制御
ロボット運動制御
強化学習方策最適化

使用事例

ロボット制御
二足歩行ロボットの歩行
二足歩行ロボットの安定した歩行運動を制御
平均報酬1429.13 +/- 411.75
強化学習研究
アルゴリズム性能比較
ベースラインモデルとして他の強化学習アルゴリズムと性能比較
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase