# 高報酬戦略

Ppo LunarLander V2
これはPPOアルゴリズムに基づく強化学習モデルで、LunarLander-v2環境向けに特別に訓練され、月着陸船を安全に着陸させることができます。
物理学モデル
P
sofiascat
14
1
Ppo LunarLander V2
これはPPOアルゴリズムに基づく強化学習モデルで、月面着陸機-v2環境における制御タスクを解決するためのものです。
物理学モデル
P
sigalaz
20
0
Ppo LunarLander V2
これはPPOアルゴリズムに基づく強化学習モデルで、LunarLander-v2環境向けに訓練され、月面着陸船の安全な着陸を制御するために使用されます。
物理学モデル
P
andri
16
0
Dqn PongNoFrameskip V4
これはDQNアルゴリズムに基づく強化学習モデルで、PongNoFrameskip-v4環境でのゲームプレイ専用に設計されています。
動画処理
D
sb3
16
1
Td3 Hopper V3
これはstable-baselines3ライブラリで訓練されたTD3エージェントモデルで、Hopper-v3環境における強化学習タスク専用です。
物理学モデル
T
sb3
30
0
Ppo HalfCheetah V3
これはPPOアルゴリズムに基づく強化学習モデルで、HalfCheetah-v3環境向けに設計されており、stable-baselines3ライブラリでトレーニングされています。
物理学モデル
P
sb3
51
1
Dqn LunarLander V2
これはstable-baselines3ライブラリでトレーニングされたDQNエージェントで、LunarLander-v2環境における強化学習タスクを解決するためのものです。
D
araffin
54
2
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase