🚀 Octo Small
Octo Small 是一个用于机器人领域的模型,它能以特定的窗口大小进行训练,并预测未来多个步骤的动作。本模型在多种数据集上进行训练,具有一定的通用性和实用性。
🚀 快速开始
有关使用此模型的说明,请参阅 Octo 模型仓库。
✨ 主要特性
- Octo Small 使用大小为 2 的窗口进行训练,通过扩散策略预测未来 4 个步骤的 7 维动作。
- 该模型是一个具有 2700 万个参数的 Transformer(相当于 ViT - S)。
- 图像通过轻量级卷积编码器进行预处理后进行分词,然后分组为 16x16 的图像块。
- 语言通过应用 T5 分词器,然后应用 T5 - Base 语言编码器进行分词。
🔧 技术细节
观测和任务规范
观测和任务遵循以下规范:
观测
{
image_primary: ('batch', 'history_window', 256, 256, 3),
image_wrist: ('batch', 'history_window', 128, 128, 3),
}
任务
{
image_primary: ('batch', 256, 256, 3),
image_wrist: ('batch', 128, 128, 3),
language_instruction: {
attention_mask: ('batch', 16),
input_ids: ('batch', 16),
},
}
在推理时,您可以传入这些观测和任务键的任何子集,历史窗口最多为 2 个时间步。
训练数据集
该模型在 Open X - Embodiment 数据集中的多种数据集混合上进行训练,各数据集在批次中的占比如下:
数据集 |
批次占比 |
Fractal (Brohan 等人, 2022) |
17.0% |
Kuka (Kalashnikov 等人, 2018) |
17.0% |
Bridge (Walke 等人, 2023) |
17.0% |
BC - Z (Jang 等人, 2022) |
9.1% |
Stanford Hydra 数据集 (Belkhale 等人, 2023) |
6.0% |
Language Table~ (Lynch 等人, 2023) |
5.9% |
Taco Play (Rosete - Beas 等人, 2022, Mees 等人, 2023) |
3.6% |
Furniture Bench 数据集 (Heo 等人, 2023) |
3.3% |
UTAustin Mutex (Shah 等人, 2023) |
3.0% |
Austin Sailor 数据集 (Nasiriany 等人, 2022) |
2.9% |
Roboturk (Mandlekar 等人, 2018) |
2.8% |
Toto (Zhou 等人, 2023) |
2.4% |
Austin Sirius 数据集 (Liu 等人, 2023) |
2.3% |
Berkeley Autolab UR5 (Chen 等人) |
1.5% |
IAMLab CMU Pickup Insert (Saxena 等人, 2023) |
1.2% |
Viola (Zhu 等人, 2023) |
1.2% |
Berkeley Fanuc Manipulation (Zhu 等人, 2023) |
1.0% |
NYU Franka Play 数据集 (Cui 等人, 2022) |
0.9% |
UCSD Kitchen 数据集 (Ge Yan 和 Wang, 2023) |
<0.1% |
Jaco Play (Dass 等人, 2023) |
0.6% |
Berkeley Cable Routing (Luo 等人, 2023) |
0.3% |
Austin Buds 数据集 (Zhu 等人, 2022) |
0.3% |
CMU Stretch (Mendonca 等人, 2023) |
0.2% |
NYU Door Opening (Pari 等人, 2021) |
0.1% |
DLR EDAN Shared Control (Quere 等人, 2020) |
0.1% |
📄 许可证
本项目采用 MIT 许可证。