T

Testpyramidsrnd

Developed by Mahmoud7
这是一个基于PPO算法的强化学习智能体,专门训练用于Unity ML-Agents的金字塔环境。
Downloads 16
Release Time : 8/11/2022

Model Overview

该模型使用PPO(近端策略优化)算法在Unity的ML-Agents金字塔环境中进行训练,能够完成特定的导航或任务解决目标。

Model Features

Unity环境集成
专为Unity ML-Agents金字塔环境设计,可直接在Unity中部署运行
PPO算法
采用近端策略优化算法,平衡探索与利用,实现稳定的策略学习
实时演示
支持通过Hugging Face Spaces进行实时演示观看

Model Capabilities

环境导航
任务解决
强化学习决策

Use Cases

游戏AI
金字塔环境导航
智能体在金字塔迷宫中导航并完成任务
可观察智能体在环境中的决策路径
教育演示
强化学习教学
展示PPO算法在实际环境中的应用
直观展示强化学习训练效果
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase