Rdt 1b_分類| AIbase模型庫

首頁

Rdt 1b

由robotics-diffusion-transformer開發

基於100萬+多機器人操作數據預訓練的10億參數模仿學習擴散Transformer模型，支持多視角視覺語言動作預測

多模態融合

Transformers

英語開源協議:MIT #多模態機器人控制 #擴散Transformer #多視角視覺指令

下載量 2,644

發布時間 : 8/27/2024

模型概述

該模型能夠根據語言指令和多視角RGB圖像預測未來64個機器人動作，兼容多種現代移動機械臂系統

模型特點

多模態輸入支持

同時處理語言指令和多達三個視角的RGB圖像輸入

通用機器人兼容性

支持單臂/雙臂、關節/末端執行器空間、位置/速度控制等多種機器人平臺

大規模預訓練

基於100萬+機器人操作數據和46個公開數據集訓練

長序列動作預測

能夠預測未來64個連續機器人動作

模型能力

視覺語言理解

機器人動作序列預測

多視角圖像處理

跨平臺機器人控制

使用案例

工業自動化

裝配線操作

根據語言指令完成零件抓取和裝配任務

實現精確的連續動作控制

服務機器人

家庭物品整理

根據語音指令識別和整理家居物品

完成複雜的多步驟操作序列

🚀 RDT-1B

RDT-1B是一個擁有10億參數的模仿學習擴散變換器（Diffusion Transformer）模型，在100多萬個多機器人情節上進行了預訓練。給定語言指令和最多三個視角的RGB圖像，RDT可以預測接下來的64個機器人動作。RDT幾乎與所有現代移動操作機器人兼容，涵蓋單臂到雙臂、關節到末端執行器、位置到速度，甚至輪式移動等多種類型。

所有代碼、預訓練模型權重和數據均遵循MIT許可證。

更多信息請參考我們的項目頁面和論文。

🚀 快速開始

RDT-1B的使用涉及代碼克隆、依賴安裝、模型創建和推理等步驟。以下是一個簡單的使用流程概述：

克隆代碼倉庫並安裝依賴。
切換到倉庫根目錄。
導入模型創建函數。
配置模型參數。
創建模型。
加載預計算的語言嵌入。
準備圖像和機器人狀態數據。
進行推理以預測接下來的64個動作。

具體代碼示例請參考“💻 使用示例”部分。

✨ 主要特性

強大的預測能力：給定語言指令和最多三個視角的RGB圖像，RDT可以預測接下來的64個機器人動作。
廣泛的兼容性：幾乎與所有現代移動操作機器人兼容，包括單臂到雙臂、關節到末端執行器、位置到速度，甚至輪式移動等多種類型。
多模態編碼器：採用了強大的視覺骨幹網絡和語言模型，能夠有效處理視覺和語言信息。
預訓練數據集豐富：在46個數據集上進行了預訓練，包括多個知名的機器人數據集。

📦 安裝指南

文檔中未提及具體的安裝步驟，你可以訪問代碼倉庫獲取詳細的安裝說明。

💻 使用示例

基礎用法

# 請先克隆倉庫並安裝依賴
# 然後通過 "cd RoboticsDiffusionTransformer" 切換到倉庫根目錄

# 從代碼庫中導入創建函數
from scripts.agilex_model import create_model

# 用於視覺輸入的相機名稱
CAMERA_NAMES = ['cam_high', 'cam_right_wrist', 'cam_left_wrist']
config = {
    'episode_len': 1000,  # 一個情節的最大長度
    'state_dim': 14,      # 機器人狀態的維度
    'chunk_size': 64,     # 一步中要預測的動作數量
    'camera_names': CAMERA_NAMES,
}
pretrained_vision_encoder_name_or_path = "google/siglip-so400m-patch14-384" 
# 使用指定的配置創建模型
model = create_model(
    args=config,
    dtype=torch.bfloat16, 
    pretrained_vision_encoder_name_or_path=pretrained_vision_encoder_name_or_path,
    pretrained='robotics-diffusion-transformer/rdt-1b',
    control_frequency=25,
)

# 開始推理過程
# 加載預計算的語言嵌入
# 關於如何編碼語言指令，請參考 scripts/encode_lang.py
lang_embeddings_path = 'your/language/embedding/path'
text_embedding = torch.load(lang_embeddings_path)['embeddings']  
images: List(PIL.Image) = ... #  最後兩幀的圖像
proprio = ... # 當前機器人狀態
# 進行推理以預測接下來的 `chunk_size` 個動作
actions = policy.step(
    proprio=proprio,
    images=images,
    text_embeds=text_embedding 
)

高級用法

文檔中未提及高級用法的相關內容，你可以訪問代碼倉庫獲取更多信息。

📚 詳細文檔

模型詳情

屬性	詳情
開發者	由來自清華大學TSAIL小組的研究人員組成的RDT團隊
任務類型	視覺 - 語言 - 動作（語言、圖像 => 機器人動作）
模型類型	基於變換器的擴散策略
許可證	MIT
語言（NLP）	英語
多模態編碼器	視覺骨幹網絡：siglip-so400m-patch14-384；語言模型：t5-v1_1-xxl
預訓練數據集	由46個數據集組成，包括RT - 1數據集、RH20T、DROID、BridgeData V2、RoboSet和Open X - Embodiment的一個子集。詳細列表請見此鏈接
代碼倉庫	https://github.com/thu-ml/RoboticsDiffusionTransformer
論文	https://arxiv.org/pdf/2410.07864
項目頁面	https://rdt-robotics.github.io/rdt-robotics/

使用說明

RDT以語言指令、RGB圖像（最多三個視角）、控制頻率（如果有）和本體感覺作為輸入，預測接下來的64個機器人動作。藉助統一動作空間，RDT支持控制幾乎所有機器人操作器，該空間包含了機器人操作器的所有主要物理量（例如，末端執行器和關節、位置和速度，甚至輪式移動）。要在你的機器人平臺上部署，你需要將原始動作向量的相關量填充到統一空間向量中。更多信息請參考我們的代碼倉庫。

⚠️ 重要提示

由於具身差距，RDT目前還不能泛化到新的機器人平臺（預訓練數據集中未出現過的）。在這種情況下，我們建議收集目標機器人的小數據集，然後用它對RDT進行微調。具體教程請參考我們的代碼倉庫。

引用說明

如果你發現我們的工作有幫助，請引用我們：

@article{liu2024rdt,
  title={RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation},
  author={Liu, Songming and Wu, Lingxuan and Li, Bangguo and Tan, Hengkai and Chen, Huayu and Wang, Zhengyi and Xu, Ke and Su, Hang and Zhu, Jun},
  journal={arXiv preprint arXiv:2410.07864},
  year={2024}
}

感謝使用！