P

Ppo PongNoFrameskip V4

由sb3開發
這是一個基於PPO算法的強化學習模型,專門用於在PongNoFrameskip-v4環境中進行遊戲。
下載量 46
發布時間 : 6/2/2022

模型概述

該模型使用stable-baselines3庫和RL Zoo訓練框架開發,能夠在不跳幀的Pong遊戲環境中實現高效的遊戲策略。

模型特點

高效的PPO算法
使用Proximal Policy Optimization算法,在保持訓練穩定性的同時實現高效學習。
Atari專用預處理
包含幀堆疊和Atari專用預處理,優化遊戲環境輸入。
多環境並行訓練
支持8個環境並行訓練,加速學習過程。

模型能力

Atari遊戲控制
強化學習策略優化
即時決策制定

使用案例

遊戲AI
Pong遊戲AI
在Pong遊戲中實現高水平的自動對戰能力
平均獎勵達到21.00
強化學習研究
算法基準測試
作為PPO算法在Atari環境中的性能基準
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase