T

Testpyramidsrnd

由Mahmoud7開發
這是一個基於PPO算法的強化學習智能體,專門訓練用於Unity ML-Agents的金字塔環境。
下載量 16
發布時間 : 8/11/2022

模型概述

該模型使用PPO(近端策略優化)算法在Unity的ML-Agents金字塔環境中進行訓練,能夠完成特定的導航或任務解決目標。

模型特點

Unity環境集成
專為Unity ML-Agents金字塔環境設計,可直接在Unity中部署運行
PPO算法
採用近端策略優化算法,平衡探索與利用,實現穩定的策略學習
即時演示
支持通過Hugging Face Spaces進行即時演示觀看

模型能力

環境導航
任務解決
強化學習決策

使用案例

遊戲AI
金字塔環境導航
智能體在金字塔迷宮中導航並完成任務
可觀察智能體在環境中的決策路徑
教育演示
強化學習教學
展示PPO算法在實際環境中的應用
直觀展示強化學習訓練效果
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase