🚀 Stable-Baselines3のTQCエージェントによるPandaPickAndPlace-v1
このプロジェクトは、stable-baselines3ライブラリ と RL Zoo を用いて、TQC エージェントを PandaPickAndPlace-v1 環境で学習させたモデルを提供します。RL Zooは、Stable Baselines3の強化学習エージェントのための学習フレームワークで、ハイパーパラメータ最適化と事前学習済みエージェントが含まれています。
🚀 クイックスタート
モデルのダウンロードと実行
以下のコマンドを使用して、モデルをダウンロードし、実行します。
# モデルをダウンロードしてlogs/フォルダに保存
python -m rl_zoo3.load_from_hub --algo tqc --env PandaPickAndPlace-v1 -orga sb3 -f logs/
python enjoy.py --algo tqc --env PandaPickAndPlace-v1 -f logs/
モデルの学習
以下のコマンドを使用して、モデルを学習させます。
python train.py --algo tqc --env PandaPickAndPlace-v1 -f logs/
# モデルをアップロードし、可能な場合はビデオを生成
python -m rl_zoo3.push_to_hub --algo tqc --env PandaPickAndPlace-v1 -f logs/ -orga sb3
✨ 主な機能
- 強化学習エージェントの学習:TQCエージェントをPandaPickAndPlace-v1環境で学習させることができます。
- ハイパーパラメータ最適化:RL Zooを使用して、ハイパーパラメータを最適化することができます。
- 事前学習済みエージェントの利用:事前学習済みのエージェントを使用して、すぐに実行することができます。
📦 インストール
本プロジェクトでは、stable-baselines3とRL Zooを使用します。それぞれのリポジトリのREADMEを参照してインストールしてください。
- RL Zoo: https://github.com/DLR-RM/rl-baselines3-zoo
- SB3: https://github.com/DLR-RM/stable-baselines3
- SB3 Contrib: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib
💻 使用例
基本的な使用法
python -m rl_zoo3.load_from_hub --algo tqc --env PandaPickAndPlace-v1 -orga sb3 -f logs/
python enjoy.py --algo tqc --env PandaPickAndPlace-v1 -f logs/
高度な使用法
python train.py --algo tqc --env PandaPickAndPlace-v1 -f logs/
python -m rl_zoo3.push_to_hub --algo tqc --env PandaPickAndPlace-v1 -f logs/ -orga sb3
📚 ドキュメント
ハイパーパラメータ
OrderedDict([('batch_size', 2048),
('buffer_size', 1000000),
('env_wrapper', 'sb3_contrib.common.wrappers.TimeFeatureWrapper'),
('gamma', 0.95),
('learning_rate', 0.001),
('n_timesteps', 1000000.0),
('policy', 'MultiInputPolicy'),
('policy_kwargs', 'dict(net_arch=[512, 512, 512], n_critics=2)'),
('replay_buffer_class', 'HerReplayBuffer'),
('replay_buffer_kwargs',
"dict( online_sampling=True, goal_selection_strategy='future', "
'n_sampled_goal=4, )'),
('tau', 0.05),
('normalize', False)])
参考論文
Panda Gym環境に関する詳細は、arxiv.org/abs/2106.13687 を参照してください。
🔧 技術詳細
モデルの性能
評価指標 |
値 |
平均報酬 |
-12.90 +/- 8.87 |
モデルの設定
属性 |
詳情 |
モデルタイプ |
TQC |
学習データ |
PandaPickAndPlace-v1 |