🚀 RDT-170M
RDT-170M是一個擁有1.7億參數的模仿學習擴散變換器(在消融實驗中為 RDT(小) )。它的隱藏層大小為 1024
,深度為 14
,均為RDT-1B的一半。給定語言指令和最多三個視角的RGB圖像,RDT可以預測接下來的64個機器人動作。RDT幾乎與所有現代移動操作機器人兼容,包括單臂到雙臂、關節到末端執行器、位置到速度,甚至輪式移動。
所有的代碼、預訓練模型權重和數據均遵循MIT許可證。
更多信息請參考我們的項目頁面和論文。
📚 詳細文檔
模型詳情
用途
RDT以語言指令、RGB圖像(最多三個視角)、控制頻率(如果有)和本體感覺作為輸入,預測接下來的64個機器人動作。
RDT藉助統一動作空間支持對幾乎所有機器人操作器的控制,該空間包含了機器人操作器的所有主要物理量(例如,末端執行器和關節、位置和速度,以及輪式移動)。要在你的機器人平臺上部署,你需要將原始動作向量的相關量填充到統一空間向量中。更多信息請參考我們的代碼倉庫。
⚠️ 重要提示
由於具身差距,RDT目前還不能泛化到新的機器人平臺(預訓練數據集中未出現過的)。在這種情況下,我們建議收集目標機器人的小數據集,然後用它對RDT進行微調。更多教程請參考我們的代碼倉庫。
💻 使用示例
基礎用法
from scripts.agilex_model import create_model
CAMERA_NAMES = ['cam_high', 'cam_right_wrist', 'cam_left_wrist']
config = {
'episode_len': 1000,
'state_dim': 14,
'chunk_size': 64,
'camera_names': CAMERA_NAMES,
}
pretrained_vision_encoder_name_or_path = "google/siglip-so400m-patch14-384"
model = create_model(
args=config,
dtype=torch.bfloat16,
pretrained_vision_encoder_name_or_path=pretrained_vision_encoder_name_or_path,
pretrained='robotics-diffusion-transformer/rdt-1b',
control_frequency=25,
)
lang_embeddings_path = 'your/language/embedding/path'
text_embedding = torch.load(lang_embeddings_path)['embeddings']
images: List(PIL.Image) = ...
proprio = ...
actions = policy.step(
proprio=proprio,
images=images,
text_embeds=text_embedding
)
📄 許可證
本項目遵循MIT許可證。
📖 引用
如果您覺得我們的工作有幫助,請引用我們的論文:
@article{liu2024rdt,
title={RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation},
author={Liu, Songming and Wu, Lingxuan and Li, Bangguo and Tan, Hengkai and Chen, Huayu and Wang, Zhengyi and Xu, Ke and Su, Hang and Zhu, Jun},
journal={arXiv preprint arXiv:2410.07864},
year={2024}
}
感謝您的支持!