🚀 RDT-1B
RDT-1B是一个拥有10亿参数的模仿学习扩散变换器(Diffusion Transformer)模型,在100多万个多机器人情节上进行了预训练。给定语言指令和最多三个视角的RGB图像,RDT可以预测接下来的64个机器人动作。RDT几乎与所有现代移动操作机器人兼容,涵盖单臂到双臂、关节到末端执行器、位置到速度,甚至轮式移动等多种类型。
所有代码、预训练模型权重和数据均遵循MIT许可证。
更多信息请参考我们的项目页面和论文。
🚀 快速开始
RDT-1B的使用涉及代码克隆、依赖安装、模型创建和推理等步骤。以下是一个简单的使用流程概述:
- 克隆代码仓库并安装依赖。
- 切换到仓库根目录。
- 导入模型创建函数。
- 配置模型参数。
- 创建模型。
- 加载预计算的语言嵌入。
- 准备图像和机器人状态数据。
- 进行推理以预测接下来的64个动作。
具体代码示例请参考“💻 使用示例”部分。
✨ 主要特性
- 强大的预测能力:给定语言指令和最多三个视角的RGB图像,RDT可以预测接下来的64个机器人动作。
- 广泛的兼容性:几乎与所有现代移动操作机器人兼容,包括单臂到双臂、关节到末端执行器、位置到速度,甚至轮式移动等多种类型。
- 多模态编码器:采用了强大的视觉骨干网络和语言模型,能够有效处理视觉和语言信息。
- 预训练数据集丰富:在46个数据集上进行了预训练,包括多个知名的机器人数据集。
📦 安装指南
文档中未提及具体的安装步骤,你可以访问代码仓库获取详细的安装说明。
💻 使用示例
基础用法
from scripts.agilex_model import create_model
CAMERA_NAMES = ['cam_high', 'cam_right_wrist', 'cam_left_wrist']
config = {
'episode_len': 1000,
'state_dim': 14,
'chunk_size': 64,
'camera_names': CAMERA_NAMES,
}
pretrained_vision_encoder_name_or_path = "google/siglip-so400m-patch14-384"
model = create_model(
args=config,
dtype=torch.bfloat16,
pretrained_vision_encoder_name_or_path=pretrained_vision_encoder_name_or_path,
pretrained='robotics-diffusion-transformer/rdt-1b',
control_frequency=25,
)
lang_embeddings_path = 'your/language/embedding/path'
text_embedding = torch.load(lang_embeddings_path)['embeddings']
images: List(PIL.Image) = ...
proprio = ...
actions = policy.step(
proprio=proprio,
images=images,
text_embeds=text_embedding
)
高级用法
文档中未提及高级用法的相关内容,你可以访问代码仓库获取更多信息。
📚 详细文档
模型详情
使用说明
RDT以语言指令、RGB图像(最多三个视角)、控制频率(如果有)和本体感觉作为输入,预测接下来的64个机器人动作。借助统一动作空间,RDT支持控制几乎所有机器人操作器,该空间包含了机器人操作器的所有主要物理量(例如,末端执行器和关节、位置和速度,甚至轮式移动)。要在你的机器人平台上部署,你需要将原始动作向量的相关量填充到统一空间向量中。更多信息请参考我们的代码仓库。
⚠️ 重要提示
由于具身差距,RDT目前还不能泛化到新的机器人平台(预训练数据集中未出现过的)。在这种情况下,我们建议收集目标机器人的小数据集,然后用它对RDT进行微调。具体教程请参考我们的代码仓库。
引用说明
如果你发现我们的工作有帮助,请引用我们:
@article{liu2024rdt,
title={RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation},
author={Liu, Songming and Wu, Lingxuan and Li, Bangguo and Tan, Hengkai and Chen, Huayu and Wang, Zhengyi and Xu, Ke and Su, Hang and Zhu, Jun},
journal={arXiv preprint arXiv:2410.07864},
year={2024}
}
感谢使用!
📄 许可证
本项目的所有代码、预训练模型权重和数据均遵循MIT许可证。