T

Testpyramidsrnd

由mariastull開發
這是一個基於PPO算法的強化學習智能體,專門訓練用於Unity ML-Agents的金字塔環境。
下載量 22
發布時間 : 7/11/2022

模型概述

該模型使用PPO(近端策略優化)算法訓練,能夠在Unity的ML-Agents金字塔環境中執行導航或目標達成任務。

模型特點

Unity環境集成
專為Unity ML-Agents金字塔環境設計,可直接在Unity模擬器中運行
PPO算法
採用近端策略優化算法,平衡探索與利用,實現穩定訓練
可視化演示
支持通過Hugging Face Spaces直接觀看智能體運行表現

模型能力

3D環境導航
目標識別與達成
強化學習決策

使用案例

遊戲AI
金字塔探索AI
智能體在金字塔環境中自主探索並完成任務
可觀察智能體在複雜3D環境中的決策過程
強化學習教學
PPO算法演示
展示PPO算法在3D環境中的實際應用
直觀理解強化學習訓練過程
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase