RDT-170M开源模型 - 免费助力机器人视觉语言动作任务模仿学习

首页

Rdt 170m

由 robotics-diffusion-transformer 开发

RDT-170M是一个拥有1.7亿参数的模仿学习扩散Transformer模型，用于机器人视觉-语言-动作任务。

多模态融合

Transformers

英语开源协议:MIT #多模态机器人控制 #扩散Transformer #视觉语言动作

下载量 278

发布时间 : 10/23/2024

模型简介

RDT-170M是一个基于Transformer的扩散策略模型，能够根据语言指令和多视角RGB图像预测未来64个机器人动作，兼容多种移动机械臂平台。

模型特点

多模态输入支持

支持语言指令和多达三个视角的RGB图像输入

广泛兼容性

兼容单臂/双臂、关节空间/末端执行器空间、位置控制/速度控制等多种机器人平台

统一动作空间

通过统一动作空间支持多种机器人控制方式

大规模预训练

基于46个机器人数据集进行预训练

模型能力

视觉-语言理解

机器人动作预测

多模态融合

扩散模型推理

使用案例

机器人控制

移动机械臂控制

根据语言指令和视觉输入控制移动机械臂执行任务

可预测未来64个机器人动作

双臂协调操作

控制双臂机器人完成协调操作任务

🚀 RDT-170M

RDT-170M是一个拥有1.7亿参数的模仿学习扩散变换器（在消融实验中为 RDT(小) ）。它的隐藏层大小为 1024，深度为 14，均为RDT-1B的一半。给定语言指令和最多三个视角的RGB图像，RDT可以预测接下来的64个机器人动作。RDT几乎与所有现代移动操作机器人兼容，包括单臂到双臂、关节到末端执行器、位置到速度，甚至轮式移动。

所有的代码、预训练模型权重和数据均遵循MIT许可证。

更多信息请参考我们的项目页面和论文。

📚 详细文档

模型详情

属性	详情
开发者	由来自清华大学TSAIL组的研究人员组成的RDT团队
任务类型	视觉 - 语言 - 动作（语言、图像 => 机器人动作）
模型类型	基于变换器的扩散策略
许可证	MIT
语言（NLP）	英文
多模态编码器	视觉骨干网络：siglip-so400m-patch14-384；语言模型：t5-v1_1-xxl
预训练数据集	46个数据集，包括RT - 1数据集、RH20T、DROID、BridgeData V2、RoboSet和Open X - Embodiment的一个子集。详细列表见此链接
代码仓库	https://github.com/thu-ml/RoboticsDiffusionTransformer
论文	https://arxiv.org/pdf/2410.07864
项目页面	https://rdt-robotics.github.io/rdt-robotics/

用途

RDT以语言指令、RGB图像（最多三个视角）、控制频率（如果有）和本体感觉作为输入，预测接下来的64个机器人动作。

RDT借助统一动作空间支持对几乎所有机器人操作器的控制，该空间包含了机器人操作器的所有主要物理量（例如，末端执行器和关节、位置和速度，以及轮式移动）。要在你的机器人平台上部署，你需要将原始动作向量的相关量填充到统一空间向量中。更多信息请参考我们的代码仓库。

⚠️ 重要提示

由于具身差距，RDT目前还不能泛化到新的机器人平台（预训练数据集中未出现过的）。在这种情况下，我们建议收集目标机器人的小数据集，然后用它对RDT进行微调。更多教程请参考我们的代码仓库。

💻 使用示例

基础用法

# Please first clone the repository and install dependencies
# Then switch to the root directory of the repository by "cd RoboticsDiffusionTransformer"

# Import a create function from the code base
from scripts.agilex_model import create_model

# Names of cameras used for visual input
CAMERA_NAMES = ['cam_high', 'cam_right_wrist', 'cam_left_wrist']
config = {
    'episode_len': 1000,  # Max length of one episode
    'state_dim': 14,      # Dimension of the robot's state
    'chunk_size': 64,     # Number of actions to predict in one step
    'camera_names': CAMERA_NAMES,
}
pretrained_vision_encoder_name_or_path = "google/siglip-so400m-patch14-384" 
# Create the model with the specified configuration
model = create_model(
    args=config,
    dtype=torch.bfloat16, 
    pretrained_vision_encoder_name_or_path=pretrained_vision_encoder_name_or_path,
    pretrained='robotics-diffusion-transformer/rdt-1b',
    control_frequency=25,
)

# Start inference process
# Load the pre-computed language embeddings
# Refer to scripts/encode_lang.py for how to encode the language instruction
lang_embeddings_path = 'your/language/embedding/path'
text_embedding = torch.load(lang_embeddings_path)['embeddings']  
images: List(PIL.Image) = ... #  The images from last 2 frames
proprio = ... # The current robot state
# Perform inference to predict the next `chunk_size` actions
actions = policy.step(
    proprio=proprio,
    images=images,
    text_embeds=text_embedding 
)

📄 许可证

本项目遵循MIT许可证。

📖 引用

如果您觉得我们的工作有帮助，请引用我们的论文：

@article{liu2024rdt,
  title={RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation},
  author={Liu, Songming and Wu, Lingxuan and Li, Bangguo and Tan, Hengkai and Chen, Huayu and Wang, Zhengyi and Xu, Ke and Su, Hang and Zhu, Jun},
  journal={arXiv preprint arXiv:2410.07864},
  year={2024}
}

感谢您的支持！