P

Ppo BreakoutNoFrameskip V4

由ThomasSimonini開發
使用PPO算法在雅達利遊戲Breakout環境中訓練的深度強化學習模型
下載量 459
發布時間 : 3/2/2022

模型概述

該模型基於stable-baselines3庫實現,使用PPO算法在BreakoutNoFrameskip-v4環境中訓練,能夠玩轉經典的雅達利Breakout遊戲。

模型特點

基於PPO算法
使用近端策略優化(PPO)算法,這是一種在強化學習中廣泛使用的策略梯度方法
幀堆疊處理
採用4幀堆疊技術處理遊戲畫面,使模型能夠感知時間動態
並行環境訓練
使用8個並行環境進行訓練,提高樣本收集效率
穩定訓練
採用多種穩定化技術如梯度裁剪、價值函數係數等確保訓練穩定性

模型能力

雅達利遊戲控制
強化學習決策
即時遊戲交互

使用案例

遊戲AI
Breakout遊戲AI
作為Breakout遊戲的自動玩家,能夠持續獲得高分
平均獎勵達到339分
強化學習研究
算法基準測試
可作為PPO算法在雅達利遊戲上的性能基準
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase