Rdt 1b_カテゴリ| AIbaseモデルライブラリ

ホーム

Rdt 1b

robotics-diffusion-transformerによって開発

100万以上のマルチロボット操作データで事前学習された10億パラメータの模倣学習拡散Transformerモデルで、マルチビュー視覚言語動作予測をサポート

マルチモーダル融合

Transformers

英語オープンソースライセンス:MIT #マルチモーダルロボット制御 #拡散Transformer #マルチビュー視覚指令

ダウンロード数 2,644

リリース時間 : 8/27/2024

モデル概要

このモデルは言語指令とマルチビューRGB画像に基づいて未来64個のロボット動作を予測でき、様々な現代的な移動ロボットアームシステムと互換性があります

モデル特徴

マルチモーダル入力サポート

言語指令と最大3つのビューのRGB画像入力を同時処理

汎用ロボット互換性

シングルアーム/デュアルアーム、関節/エンドエフェクタ空間、位置/速度制御など様々なロボットプラットフォームをサポート

大規模事前学習

100万以上のロボット操作データと46の公開データセットで学習

長系列動作予測

未来64個の連続したロボット動作を予測可能

モデル能力

視覚言語理解

ロボット動作系列予測

マルチビュー画像処理

クロスプラットフォームロボット制御

使用事例

産業自動化

組立ライン操作

言語指令に基づいて部品把持と組立タスクを完了

精密な連続動作制御を実現

サービスロボット

家庭用品整理

音声指令に基づいて家庭用品を識別・整理

複雑なマルチステップ操作系列を完了

🚀 RDT-1B

RDT-1Bは、100万以上のマルチロボットエピソードで事前学習された、10億パラメータの模倣学習用Diffusion Transformerです。最大3つの視点の言語指示とRGB画像を入力として、RDTは次の64のロボットアクションを予測することができます。RDTは、片腕から両腕、関節からエンドエフェクタ、位置から速度、さらには車輪式移動まで、ほとんどすべての最新のモバイルマニピュレータと互換性があります。

すべてのコード、事前学習済みのモデル重み、およびデータは、MITライセンスの下で提供されています。

詳細については、プロジェクトページと論文を参照してください。

🚀 クイックスタート

RDT-1Bの概要や使い方をご紹介します。

✨ 主な機能

最大3つの視点の言語指示とRGB画像を入力として、次の64のロボットアクションを予測することができます。
片腕から両腕、関節からエンドエフェクタ、位置から速度、さらには車輪式移動まで、ほとんどすべての最新のモバイルマニピュレータと互換性があります。

📚 ドキュメント

モデルの詳細

属性	詳情
開発者	清華大学のTSAILグループの研究者からなるRDTチーム
タスクタイプ	ビジョン-言語-アクション（言語、画像 => ロボットアクション）
モデルタイプ	Transformersを用いたDiffusion Policy
ライセンス	MIT
言語	英語
マルチモーダルエンコーダ	ビジョンバックボーン: siglip-so400m-patch14-384、言語モデル: t5-v1_1-xxl
事前学習データセット	RT-1 Dataset、RH20T、DROID、BridgeData V2、RoboSet、およびOpen X-Embodimentのサブセットを含む46のデータセット。詳細リストはこちらを参照
リポジトリ	https://github.com/thu-ml/RoboticsDiffusionTransformer
論文	https://arxiv.org/pdf/2410.07864
プロジェクトページ	https://rdt-robotics.github.io/rdt-robotics/

モデルの使用方法

RDTは、言語指示、RGB画像（最大3つの視点）、制御周波数（あれば）、およびプロプリオセプションを入力として、次の64のロボットアクションを予測します。 RDTは、統一されたアクション空間を使用することで、ほとんどすべてのロボットマニピュレータの制御をサポートしています。このアクション空間には、ロボットマニピュレータの主要な物理量（例えば、エンドエフェクタと関節、位置と速度、および車輪式移動）がすべて含まれています。あなたのロボットプラットフォームにデプロイするには、生のアクションベクトルの関連する量を統一された空間ベクトルに入力する必要があります。詳細については、リポジトリを参照してください。

⚠️ 重要提示

エンボディメントギャップのため、RDTはまだ新しいロボットプラットフォーム（事前学習データセットに含まれていないもの）に一般化できません。この場合、ターゲットロボットの小さなデータセットを収集し、それを使用してRDTをファインチューニングすることをお勧めします。チュートリアルはリポジトリを参照してください。

💻 使用例

基本的な使用法

# Please first clone the repository and install dependencies
# Then switch to the root directory of the repository by "cd RoboticsDiffusionTransformer"

# Import a create function from the code base
from scripts.agilex_model import create_model

# Names of cameras used for visual input
CAMERA_NAMES = ['cam_high', 'cam_right_wrist', 'cam_left_wrist']
config = {
    'episode_len': 1000,  # Max length of one episode
    'state_dim': 14,      # Dimension of the robot's state
    'chunk_size': 64,     # Number of actions to predict in one step
    'camera_names': CAMERA_NAMES,
}
pretrained_vision_encoder_name_or_path = "google/siglip-so400m-patch14-384" 
# Create the model with the specified configuration
model = create_model(
    args=config,
    dtype=torch.bfloat16, 
    pretrained_vision_encoder_name_or_path=pretrained_vision_encoder_name_or_path,
    pretrained='robotics-diffusion-transformer/rdt-1b',
    control_frequency=25,
)

# Start inference process
# Load the pre-computed language embeddings
# Refer to scripts/encode_lang.py for how to encode the language instruction
lang_embeddings_path = 'your/language/embedding/path'
text_embedding = torch.load(lang_embeddings_path)['embeddings']  
images: List(PIL.Image) = ... #  The images from last 2 frames
proprio = ... # The current robot state
# Perform inference to predict the next `chunk_size` actions
actions = policy.step(
    proprio=proprio,
    images=images,
    text_embeds=text_embedding 
)

📄 ライセンス

すべてのコード、事前学習済みのモデル重み、およびデータは、MITライセンスの下で提供されています。

引用

もしあなたがこの研究が役に立ったと感じたら、以下のように引用してください。

@article{liu2024rdt,
  title={RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation},
  author={Liu, Songming and Wu, Lingxuan and Li, Bangguo and Tan, Hengkai and Chen, Huayu and Wang, Zhengyi and Xu, Ke and Su, Hang and Zhu, Jun},
  journal={arXiv preprint arXiv:2410.07864},
  year={2024}
}

ありがとうございます！