Decision Transformer Gym Hopper Medium
這是一個在Gym Hopper環境中使用中等表現軌跡訓練的決策變換器模型,適用於連續控制任務。
物理學模型
Transformers

D
edbeeching
6,518
6
Decision Transformer Gym Hopper Expert
這是一個經過訓練的決策變換器模型,其訓練數據來源於Gym Hopper環境中的專家軌跡。
物理學模型
Transformers

D
edbeeching
727
19
Ppo MountainCarContinuous V0
這是一個基於PPO算法的強化學習智能體,專門為MountainCarContinuous-v0環境訓練,能夠有效解決連續控制的山地車問題。
物理學模型
P
sb3
433
1
Dqn Acrobot V1
這是一個基於 stable-baselines3 庫訓練的 DQN 強化學習智能體,專門用於解決 Acrobot-v1 控制問題。
物理學模型
D
sb3
403
0
Burgers Inverse
利用深度學習解決伯格斯方程反問題的模型,能夠預測速度演變和估算物理參數
物理學模型
TensorBoard 英語

B
piotrnobis
335
0
Lwm V1.1
LWM 1.1是專為無線信道特徵提取設計的升級版預訓練模型,支持多樣化信道配置,提升特徵提取質量與泛化能力。
物理學模型
Transformers

L
wi-lab
277
1
Td3 MountainCarContinuous V0
一個基於stable-baselines3庫訓練的TD3強化學習智能體,專為MountainCarContinuous-v0環境設計。
物理學模型
T
sb3
203
0
Lwm
LWM是首個無線通信領域的基礎模型,作為通用特徵提取器開發,能夠從無線信道數據中提取精細表徵。
物理學模型
Transformers

L
wi-lab
137
3
Assignment2 Omar
這是一個基於PPO算法的強化學習模型,專門用於解決LunarLander-v2環境中的著陸任務。
物理學模型
A
Classroom-workshop
135
3
PPO LunarLander V2
這是一個基於PPO算法的強化學習模型,專為LunarLander-v2環境訓練,能夠控制月球著陸器安全著陸。
物理學模型
P
BioGeek
102
0
Decision Transformer Gym Halfcheetah Expert
這是一個經過訓練的決策變換器模型,其訓練數據來自Gym HalfCheetah環境中採樣的專家軌跡。
物理學模型
Transformers

D
edbeeching
98
1
Mlagents Walker
這是一個使用Unity ML-Agents庫訓練的PPO智能體模型,專門用於Walker環境。
物理學模型
TensorBoard

M
Forkits
81
0
Ppo LunarLander V2
這是一個基於PPO算法的強化學習模型,專門用於解決LunarLander-v2環境中的著陸任務。
物理學模型
P
sb3
73
0
Ppo LunarLander V2
這是一個基於PPO算法的強化學習模型,專門用於解決LunarLander-v2環境中的著陸任務。
物理學模型
P
araffin
65
18
BART Lagrangian
Gpl-3.0
基於BART架構的序列到序列Transformer模型,專門用於生成粒子物理學的拉格朗日量。
物理學模型
Transformers

B
JoseEliel
61
1
Ppo Pendulum V1
這是一個基於PPO算法的強化學習模型,專門用於解決Pendulum-v1環境中的控制問題。
物理學模型
P
sb3
51
2
Ppo HalfCheetah V3
這是一個基於PPO算法的強化學習模型,專為HalfCheetah-v3環境設計,由stable-baselines3庫訓練。
物理學模型
P
sb3
51
1
Sac Hopper V3
這是一個基於SAC算法的強化學習模型,用於在Hopper-v3環境中控制機器人跳躍運動。
物理學模型
S
sb3
44
0
Sac Walker2d V3
這是一個基於SAC算法的強化學習模型,專為Walker2d-v3環境設計,能夠控制雙足機器人行走。
物理學模型
S
sb3
43
0
Vintix
Apache-2.0
Vintix是一個通過上下文強化學習實現的多任務動作模型,在多個基準測試中表現出色。
物理學模型 英語
V
dunnolab
41
2
Mlagents Pyramids
這是一個基於PPO算法的強化學習智能體,使用Unity ML-Agents在金字塔環境中訓練而成。
物理學模型
TensorBoard

M
danielcfho
40
0
Sac Pendulum V1
這是一個基於SAC算法的強化學習模型,用於解決Pendulum-v1環境中的控制問題。
物理學模型
S
sb3
39
0
Td3 Hopper V3
這是一個基於stable-baselines3庫訓練的TD3智能體模型,專門用於Hopper-v3環境中的強化學習任務。
物理學模型
T
sb3
30
0
Decision Transformer Gym Halfcheetah Medium
這是一個基於決策變換器架構的強化學習模型,專門針對Gym HalfCheetah連續控制環境訓練,使用中等質量軌跡數據進行訓練。
物理學模型
Transformers

D
edbeeching
27
0
Testpyramidsrnd
這是一個基於PPO算法的強化學習智能體,專門針對Unity ML-Agents的金字塔環境進行訓練
物理學模型
TensorBoard

T
croumegous
23
0
Td3 HalfCheetah V3
這是一個基於stable-baselines3庫訓練的TD3強化學習智能體,專為HalfCheetah-v3環境設計,平均獎勵達到9709.01。
物理學模型
T
sb3
23
0
FFNN
其他
該模型是一個用於時間序列預測的模型,支持英語語言,使用特定的許可證(bethana15)。
物理學模型 英語
F
bethana
22
0
Ppo MountainCar V0
這是一個基於 PPO 算法的深度強化學習模型,專門用於解決 MountainCar-v0 環境中的控制問題。
物理學模型
P
sb3
21
1
Ppo LunarLander V2
這是一個基於PPO算法的強化學習模型,用於解決月球著陸器-v2環境中的控制任務。
物理學模型
P
sigalaz
20
0
Ppo Hopper V3
這是一個基於 stable-baselines3 庫訓練的 PPO 強化學習模型,專門用於 Hopper-v3 環境中的連續控制任務。
物理學模型
P
sb3
19
0
Dqn Mountaincar V0
這是一個基於深度Q網絡(DQN)的強化學習智能體,專門訓練用於解決MountainCar-v0環境中的控制問題。
物理學模型
D
Galeros
18
0
Ppo LunarLander V2
這是一個基於PPO算法的強化學習模型,專門針對LunarLander-v2環境訓練,用於控制月球著陸器安全著陸。
物理學模型
P
andri
16
0
Dqn Mountaincar V0 Zoo
這是一個基於深度Q網絡(DQN)的強化學習智能體,專門用於解決MountainCar-v0環境中的任務。
物理學模型
D
Galeros
16
0
Ppo Pendulum V1
這是一個基於PPO算法的強化學習模型,用於解決Pendulum-v1環境中的控制問題。
物理學模型
P
ernestumorga
16
0
Ppo LunarLanderContinuous V2
這是一個基於PPO算法的強化學習智能體,專為LunarLanderContinuous-v2環境訓練,能夠控制登月器平穩著陸。
物理學模型
P
sb3
15
0
Decision Transformer Gym Walker2d Expert
這是一個經過訓練的決策變換器模型,其訓練數據來源於Gym Walker2d環境中採樣的專家軌跡。
物理學模型
Transformers

D
edbeeching
14
4
Ppo CartPole V1
這是一個使用 stable-baselines3 庫訓練的 PPO 智能體模型,專門用於解決 CartPole-v1 強化學習任務。
物理學模型
P
somya17ban
14
1
Ppo LunarLander V2
這是一個基於PPO算法的強化學習模型,專門針對LunarLander-v2環境進行訓練,能夠控制登月器安全著陸。
物理學模型
P
sofiascat
14
1
Mlagents Pyramids
這是一個基於PPO算法的強化學習智能體,在Unity的ML-Agents金字塔環境中訓練完成
物理學模型
TensorBoard

M
a-doering
14
0
Ppo LunarLander V2
這是一個基於PPO算法的強化學習模型,專門用於解決LunarLander-v2環境中的著陸任務。
物理學模型
P
tooalvin
13
1
Testpyramidsrnd
這是一個基於PPO算法的強化學習智能體,專門訓練用於在Unity的ML-Agents金字塔環境中進行導航和任務解決。
物理學模型
TensorBoard

T
adil-o
13
0
Sealswalker2d V0
這是一個基於PPO算法的強化學習智能體,專門為seals/Walker2d-v0環境訓練,用於控制Walker2d機器人行走任務。
物理學模型
S
ernestumorga
0
0