🚀 RDT-1B
RDT-1B是一個擁有10億參數的模仿學習擴散變換器(Diffusion Transformer)模型,在100多萬個多機器人情節上進行了預訓練。給定語言指令和最多三個視角的RGB圖像,RDT可以預測接下來的64個機器人動作。RDT幾乎與所有現代移動操作機器人兼容,涵蓋單臂到雙臂、關節到末端執行器、位置到速度,甚至輪式移動等多種類型。
所有代碼、預訓練模型權重和數據均遵循MIT許可證。
更多信息請參考我們的項目頁面和論文。
🚀 快速開始
RDT-1B的使用涉及代碼克隆、依賴安裝、模型創建和推理等步驟。以下是一個簡單的使用流程概述:
- 克隆代碼倉庫並安裝依賴。
- 切換到倉庫根目錄。
- 導入模型創建函數。
- 配置模型參數。
- 創建模型。
- 加載預計算的語言嵌入。
- 準備圖像和機器人狀態數據。
- 進行推理以預測接下來的64個動作。
具體代碼示例請參考“💻 使用示例”部分。
✨ 主要特性
- 強大的預測能力:給定語言指令和最多三個視角的RGB圖像,RDT可以預測接下來的64個機器人動作。
- 廣泛的兼容性:幾乎與所有現代移動操作機器人兼容,包括單臂到雙臂、關節到末端執行器、位置到速度,甚至輪式移動等多種類型。
- 多模態編碼器:採用了強大的視覺骨幹網絡和語言模型,能夠有效處理視覺和語言信息。
- 預訓練數據集豐富:在46個數據集上進行了預訓練,包括多個知名的機器人數據集。
📦 安裝指南
文檔中未提及具體的安裝步驟,你可以訪問代碼倉庫獲取詳細的安裝說明。
💻 使用示例
基礎用法
from scripts.agilex_model import create_model
CAMERA_NAMES = ['cam_high', 'cam_right_wrist', 'cam_left_wrist']
config = {
'episode_len': 1000,
'state_dim': 14,
'chunk_size': 64,
'camera_names': CAMERA_NAMES,
}
pretrained_vision_encoder_name_or_path = "google/siglip-so400m-patch14-384"
model = create_model(
args=config,
dtype=torch.bfloat16,
pretrained_vision_encoder_name_or_path=pretrained_vision_encoder_name_or_path,
pretrained='robotics-diffusion-transformer/rdt-1b',
control_frequency=25,
)
lang_embeddings_path = 'your/language/embedding/path'
text_embedding = torch.load(lang_embeddings_path)['embeddings']
images: List(PIL.Image) = ...
proprio = ...
actions = policy.step(
proprio=proprio,
images=images,
text_embeds=text_embedding
)
高級用法
文檔中未提及高級用法的相關內容,你可以訪問代碼倉庫獲取更多信息。
📚 詳細文檔
模型詳情
使用說明
RDT以語言指令、RGB圖像(最多三個視角)、控制頻率(如果有)和本體感覺作為輸入,預測接下來的64個機器人動作。藉助統一動作空間,RDT支持控制幾乎所有機器人操作器,該空間包含了機器人操作器的所有主要物理量(例如,末端執行器和關節、位置和速度,甚至輪式移動)。要在你的機器人平臺上部署,你需要將原始動作向量的相關量填充到統一空間向量中。更多信息請參考我們的代碼倉庫。
⚠️ 重要提示
由於具身差距,RDT目前還不能泛化到新的機器人平臺(預訓練數據集中未出現過的)。在這種情況下,我們建議收集目標機器人的小數據集,然後用它對RDT進行微調。具體教程請參考我們的代碼倉庫。
引用說明
如果你發現我們的工作有幫助,請引用我們:
@article{liu2024rdt,
title={RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation},
author={Liu, Songming and Wu, Lingxuan and Li, Bangguo and Tan, Hengkai and Chen, Huayu and Wang, Zhengyi and Xu, Ke and Su, Hang and Zhu, Jun},
journal={arXiv preprint arXiv:2410.07864},
year={2024}
}
感謝使用!
📄 許可證
本項目的所有代碼、預訓練模型權重和數據均遵循MIT許可證。