🚀 TQC 智能體在 PandaPickAndPlace-v1 環境中的應用
本項目是一個經過訓練的 TQC 智能體,它使用 stable-baselines3 庫 和 RL Zoo 在 PandaPickAndPlace-v1 環境中進行學習和操作。RL Zoo 是一個針對 Stable Baselines3 強化學習智能體的訓練框架,包含超參數優化和預訓練智能體。
🚀 快速開始
模型使用(藉助 SB3 RL Zoo)
你可以按照以下步驟使用預訓練模型:
# 下載模型並保存到 logs/ 文件夾
python -m rl_zoo3.load_from_hub --algo tqc --env PandaPickAndPlace-v1 -orga sb3 -f logs/
python enjoy.py --algo tqc --env PandaPickAndPlace-v1 -f logs/
相關鏈接:
- RL Zoo: https://github.com/DLR-RM/rl-baselines3-zoo
- SB3: https://github.com/DLR-RM/stable-baselines3
- SB3 Contrib: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib
模型訓練(藉助 RL Zoo)
若要重新訓練模型,可執行以下命令:
python train.py --algo tqc --env PandaPickAndPlace-v1 -f logs/
# 上傳模型並生成視頻(若支持)
python -m rl_zoo3.push_to_hub --algo tqc --env PandaPickAndPlace-v1 -f logs/ -orga sb3
✨ 主要特性
本項目具有以下主要特性:
- 採用 TQC 算法在 PandaPickAndPlace-v1 環境中訓練智能體。
- 藉助 RL Zoo 框架,支持超參數優化和預訓練智能體。
📚 詳細文檔
超參數設置
以下是訓練時使用的超參數:
OrderedDict([('batch_size', 2048),
('buffer_size', 1000000),
('env_wrapper', 'sb3_contrib.common.wrappers.TimeFeatureWrapper'),
('gamma', 0.95),
('learning_rate', 0.001),
('n_timesteps', 1000000.0),
('policy', 'MultiInputPolicy'),
('policy_kwargs', 'dict(net_arch=[512, 512, 512], n_critics=2)'),
('replay_buffer_class', 'HerReplayBuffer'),
('replay_buffer_kwargs',
"dict( online_sampling=True, goal_selection_strategy='future', "
'n_sampled_goal=4, )'),
('tau', 0.05),
('normalize', False)])
參考資料
Panda Gym 環境相關論文:arxiv.org/abs/2106.13687
📦 安裝指南
本項目依賴於 stable-baselines3、RL Zoo 等庫,可通過以下鏈接獲取:
- RL Zoo: https://github.com/DLR-RM/rl-baselines3-zoo
- SB3: https://github.com/DLR-RM/stable-baselines3
- SB3 Contrib: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib
按照對應項目的安裝說明進行安裝即可。
🔧 技術細節
評估指標
屬性 |
詳情 |
平均獎勵 |
-12.90 +/- 8.87 |
任務類型 |
強化學習 |
數據集 |
PandaPickAndPlace-v1 |
模型信息
- 模型名稱:TQC
- 訓練環境:PandaPickAndPlace-v1
- 使用庫:stable-baselines3、RL Zoo