RDT - 170Mオープンソースモデル - 無料でロボットの視覚言語アクションタスクの模倣学習を支援

ホーム

Rdt 170m

robotics-diffusion-transformerによって開発

RDT-170Mは1.7億パラメータを持つ模倣学習拡散Transformerモデルで、ロボットの視覚-言語-動作タスクに使用されます。

マルチモーダル融合

Transformers

英語オープンソースライセンス:MIT #マルチモーダルロボット制御 #拡散Transformer #視覚言語動作

ダウンロード数 278

リリース時間 : 10/23/2024

モデル概要

RDT-170MはTransformerベースの拡散戦略モデルで、言語指令とマルチビューRGB画像から未来64のロボット動作を予測し、様々な移動ロボットアームプラットフォームと互換性があります。

モデル特徴

マルチモーダル入力サポート

言語指令と最大3ビューのRGB画像入力をサポート

広範な互換性

単腕/両腕、関節空間/エンドエフェクタ空間、位置制御/速度制御など様々なロボットプラットフォームと互換

統一動作空間

統一動作空間により複数のロボット制御方式をサポート

大規模事前学習

46のロボットデータセットに基づく事前学習

モデル能力

視覚-言語理解

ロボット動作予測

マルチモーダル融合

拡散モデル推論

使用事例

ロボット制御

移動ロボットアーム制御

言語指令と視覚入力に基づき移動ロボットアームを制御してタスクを実行

未来64のロボット動作を予測可能

両腕協調操作

両腕ロボットを制御して協調操作タスクを完了

🚀 RDT-170M

RDT-170Mは、170Mパラメータの模倣学習用Diffusion Transformerです（アブレーション実験ではRDT(小)と呼ばれます）。隠れ層のサイズは1024、深さは14で、これらはRDT-1Bの半分です。最大3つの視点からの言語指示とRGB画像を入力として、RDTは次の64個のロボットアクションを予測することができます。RDTは、単腕から双腕、関節からEEF、位置から速度、さらには車輪式移動まで、ほとんどすべての最新のモバイルマニピュレータと互換性があります。

すべてのコード、事前学習済みのモデルウェイト、およびデータは、MITライセンスの下で提供されています。

詳細については、プロジェクトページと論文を参照してください。

📚 ドキュメント

モデルの詳細

プロパティ	詳細
開発者	清華大学のTSAILグループの研究者から構成されるRDTチーム
タスクの種類	ビジョン・言語・アクション（言語、画像 => ロボットアクション）
モデルの種類	Transformersを用いたDiffusion Policy
ライセンス	MIT
言語（NLP）	en
マルチモーダルエンコーダ	- ビジョンバックボーン: siglip-so400m-patch14-384 - 言語モデル: t5-v1_1-xxl
事前学習データセット	RT-1 Dataset、RH20T、DROID、BridgeData V2、RoboSet、およびOpen X-Embodimentのサブセットから構成される46のデータセット。詳細なリストはこちらを参照
リポジトリ	https://github.com/thu-ml/RoboticsDiffusionTransformer
論文	https://arxiv.org/pdf/2410.07864
プロジェクトページ	https://rdt-robotics.github.io/rdt-robotics/

用途

RDTは、言語指示、RGB画像（最大3つの視点）、制御頻度（あれば）、およびプロプリオセプションを入力として、次の64個のロボットアクションを予測します。

RDTは、統一されたアクション空間を利用することで、ほとんどすべてのロボットマニピュレータの制御をサポートしています。このアクション空間には、ロボットマニピュレータの主要な物理量（エンドエフェクタや関節、位置や速度、さらには車輪式移動など）がすべて含まれています。

あなたのロボットプラットフォームにデプロイするには、生のアクションベクトルの関連する量を統一された空間ベクトルに入力する必要があります。詳細については、私たちのリポジトリを参照してください。

⚠️ 重要提示

エンボディメントギャップのため、RDTはまだ事前学習データセットに含まれていない新しいロボットプラットフォームには汎化できません。この場合、ターゲットロボットの小さなデータセットを収集し、それを使ってRDTをファインチューニングすることをおすすめします。チュートリアルについては、私たちのリポジトリを参照してください。

💻 使用例

基本的な使用法

# Please first clone the repository and install dependencies
# Then switch to the root directory of the repository by "cd RoboticsDiffusionTransformer"

# Import a create function from the code base
from scripts.agilex_model import create_model

# Names of cameras used for visual input
CAMERA_NAMES = ['cam_high', 'cam_right_wrist', 'cam_left_wrist']
config = {
    'episode_len': 1000,  # Max length of one episode
    'state_dim': 14,      # Dimension of the robot's state
    'chunk_size': 64,     # Number of actions to predict in one step
    'camera_names': CAMERA_NAMES,
}
pretrained_vision_encoder_name_or_path = "google/siglip-so400m-patch14-384" 
# Create the model with the specified configuration
model = create_model(
    args=config,
    dtype=torch.bfloat16, 
    pretrained_vision_encoder_name_or_path=pretrained_vision_encoder_name_or_path,
    pretrained='robotics-diffusion-transformer/rdt-1b',
    control_frequency=25,
)

# Start inference process
# Load the pre-computed language embeddings
# Refer to scripts/encode_lang.py for how to encode the language instruction
lang_embeddings_path = 'your/language/embedding/path'
text_embedding = torch.load(lang_embeddings_path)['embeddings']  
images: List(PIL.Image) = ... #  The images from last 2 frames
proprio = ... # The current robot state
# Perform inference to predict the next `chunk_size` actions
actions = policy.step(
    proprio=proprio,
    images=images,
    text_embeds=text_embedding 
)

引用

もし私たちの研究が役に立った場合は、以下のように引用してください。

@article{liu2024rdt,
  title={RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation},
  author={Liu, Songming and Wu, Lingxuan and Li, Bangguo and Tan, Hengkai and Chen, Huayu and Wang, Zhengyi and Xu, Ke and Su, Hang and Zhu, Jun},
  journal={arXiv preprint arXiv:2410.07864},
  year={2024}
}

ありがとうございます！