P

Ppo Pendulum V1

Developed by sb3
这是一个基于PPO算法的强化学习模型,专门用于解决Pendulum-v1环境中的控制问题。
Downloads 51
Release Time : 5/4/2022

Model Overview

该模型使用Stable Baselines3库中的PPO算法训练,适用于Pendulum-v1环境,能够学习如何控制倒立摆保持直立状态。

Model Features

使用SDE技术
采用了状态依赖探索(State-Dependent Exploration)技术,提高了探索效率
稳定训练
基于PPO算法,确保训练过程的稳定性
高效学习
通过合理的超参数设置,实现高效学习

Model Capabilities

倒立摆控制
连续动作空间处理
强化学习任务解决

Use Cases

控制问题
倒立摆平衡控制
控制倒立摆保持在直立位置
平均奖励达到-230.42 ±142.54
教学演示
强化学习教学示例
作为强化学习算法的教学演示案例
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase