🚀 RDT-1B
RDT-1Bは、100万以上のマルチロボットエピソードで事前学習された、10億パラメータの模倣学習用Diffusion Transformerです。最大3つの視点の言語指示とRGB画像を入力として、RDTは次の64のロボットアクションを予測することができます。RDTは、片腕から両腕、関節からエンドエフェクタ、位置から速度、さらには車輪式移動まで、ほとんどすべての最新のモバイルマニピュレータと互換性があります。
すべてのコード、事前学習済みのモデル重み、およびデータは、MITライセンスの下で提供されています。
詳細については、プロジェクトページと論文を参照してください。
🚀 クイックスタート
RDT-1Bの概要や使い方をご紹介します。
✨ 主な機能
- 最大3つの視点の言語指示とRGB画像を入力として、次の64のロボットアクションを予測することができます。
- 片腕から両腕、関節からエンドエフェクタ、位置から速度、さらには車輪式移動まで、ほとんどすべての最新のモバイルマニピュレータと互換性があります。
📚 ドキュメント
モデルの詳細
モデルの使用方法
RDTは、言語指示、RGB画像(最大3つの視点)、制御周波数(あれば)、およびプロプリオセプションを入力として、次の64のロボットアクションを予測します。
RDTは、統一されたアクション空間を使用することで、ほとんどすべてのロボットマニピュレータの制御をサポートしています。このアクション空間には、ロボットマニピュレータの主要な物理量(例えば、エンドエフェクタと関節、位置と速度、および車輪式移動)がすべて含まれています。
あなたのロボットプラットフォームにデプロイするには、生のアクションベクトルの関連する量を統一された空間ベクトルに入力する必要があります。詳細については、リポジトリを参照してください。
⚠️ 重要提示
エンボディメントギャップのため、RDTはまだ新しいロボットプラットフォーム(事前学習データセットに含まれていないもの)に一般化できません。この場合、ターゲットロボットの小さなデータセットを収集し、それを使用してRDTをファインチューニングすることをお勧めします。チュートリアルはリポジトリを参照してください。
💻 使用例
基本的な使用法
from scripts.agilex_model import create_model
CAMERA_NAMES = ['cam_high', 'cam_right_wrist', 'cam_left_wrist']
config = {
'episode_len': 1000,
'state_dim': 14,
'chunk_size': 64,
'camera_names': CAMERA_NAMES,
}
pretrained_vision_encoder_name_or_path = "google/siglip-so400m-patch14-384"
model = create_model(
args=config,
dtype=torch.bfloat16,
pretrained_vision_encoder_name_or_path=pretrained_vision_encoder_name_or_path,
pretrained='robotics-diffusion-transformer/rdt-1b',
control_frequency=25,
)
lang_embeddings_path = 'your/language/embedding/path'
text_embedding = torch.load(lang_embeddings_path)['embeddings']
images: List(PIL.Image) = ...
proprio = ...
actions = policy.step(
proprio=proprio,
images=images,
text_embeds=text_embedding
)
📄 ライセンス
すべてのコード、事前学習済みのモデル重み、およびデータは、MITライセンスの下で提供されています。
引用
もしあなたがこの研究が役に立ったと感じたら、以下のように引用してください。
@article{liu2024rdt,
title={RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation},
author={Liu, Songming and Wu, Lingxuan and Li, Bangguo and Tan, Hengkai and Chen, Huayu and Wang, Zhengyi and Xu, Ke and Su, Hang and Zhu, Jun},
journal={arXiv preprint arXiv:2410.07864},
year={2024}
}
ありがとうございます!