🚀 TQC 智能体在 PandaPickAndPlace-v1 环境中的应用
本项目是一个经过训练的 TQC 智能体,它使用 stable-baselines3 库 和 RL Zoo 在 PandaPickAndPlace-v1 环境中进行学习和操作。RL Zoo 是一个针对 Stable Baselines3 强化学习智能体的训练框架,包含超参数优化和预训练智能体。
🚀 快速开始
模型使用(借助 SB3 RL Zoo)
你可以按照以下步骤使用预训练模型:
# 下载模型并保存到 logs/ 文件夹
python -m rl_zoo3.load_from_hub --algo tqc --env PandaPickAndPlace-v1 -orga sb3 -f logs/
python enjoy.py --algo tqc --env PandaPickAndPlace-v1 -f logs/
相关链接:
- RL Zoo: https://github.com/DLR-RM/rl-baselines3-zoo
- SB3: https://github.com/DLR-RM/stable-baselines3
- SB3 Contrib: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib
模型训练(借助 RL Zoo)
若要重新训练模型,可执行以下命令:
python train.py --algo tqc --env PandaPickAndPlace-v1 -f logs/
# 上传模型并生成视频(若支持)
python -m rl_zoo3.push_to_hub --algo tqc --env PandaPickAndPlace-v1 -f logs/ -orga sb3
✨ 主要特性
本项目具有以下主要特性:
- 采用 TQC 算法在 PandaPickAndPlace-v1 环境中训练智能体。
- 借助 RL Zoo 框架,支持超参数优化和预训练智能体。
📚 详细文档
超参数设置
以下是训练时使用的超参数:
OrderedDict([('batch_size', 2048),
('buffer_size', 1000000),
('env_wrapper', 'sb3_contrib.common.wrappers.TimeFeatureWrapper'),
('gamma', 0.95),
('learning_rate', 0.001),
('n_timesteps', 1000000.0),
('policy', 'MultiInputPolicy'),
('policy_kwargs', 'dict(net_arch=[512, 512, 512], n_critics=2)'),
('replay_buffer_class', 'HerReplayBuffer'),
('replay_buffer_kwargs',
"dict( online_sampling=True, goal_selection_strategy='future', "
'n_sampled_goal=4, )'),
('tau', 0.05),
('normalize', False)])
参考资料
Panda Gym 环境相关论文:arxiv.org/abs/2106.13687
📦 安装指南
本项目依赖于 stable-baselines3、RL Zoo 等库,可通过以下链接获取:
- RL Zoo: https://github.com/DLR-RM/rl-baselines3-zoo
- SB3: https://github.com/DLR-RM/stable-baselines3
- SB3 Contrib: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib
按照对应项目的安装说明进行安装即可。
🔧 技术细节
评估指标
属性 |
详情 |
平均奖励 |
-12.90 +/- 8.87 |
任务类型 |
强化学习 |
数据集 |
PandaPickAndPlace-v1 |
模型信息
- 模型名称:TQC
- 训练环境:PandaPickAndPlace-v1
- 使用库:stable-baselines3、RL Zoo