ppo-LunarLander-v2開源強化學習模型 - 免費部署解決月球著陸任務

Home

Ppo LunarLander V2

Developed by tooalvin

這是一個基於PPO算法的強化學習模型，專門用於解決LunarLander-v2環境中的著陸任務。

物理學模型 #月球著陸器控制 #深度強化學習 #穩定訓練框架

Downloads 13

Release Time : 2/10/2025

Model Overview

該模型使用Proximal Policy Optimization (PPO)算法訓練，旨在控制航天器在月球表面安全著陸。

Model Features

穩定訓練

使用PPO算法確保訓練過程的穩定性

連續動作空間處理

能夠處理LunarLander環境中的連續動作空間

獎勵優化

通過強化學習優化航天器著陸的獎勵函數

Model Capabilities

航天器控制

連續動作決策

強化學習任務解決

Use Cases

航天模擬

月球著陸器控制

模擬控制航天器在月球表面安全著陸的過程

平均獎勵達到92.08 +/- 122.82

教育演示

強化學習教學案例

作為強化學習算法的教學演示案例

屬性	詳情
模型類型	PPO
訓練環境	LunarLander-v2
平均獎勵	92.08 ± 122.82

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Ppo LunarLander V2

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 PPO 智能體玩轉 LunarLander-v2

🚀 快速開始

模型信息

依賴庫

使用示例

基礎用法

注意事項