🚀 Octo Base
Octo Base是一个用于机器人领域的模型,它通过特定的训练方式和架构,能够根据观察和任务信息预测未来的动作,为机器人的决策和行动提供支持。
🚀 快速开始
有关如何使用此模型的说明,请参阅 这里。
🔧 技术细节
模型训练与架构
Octo Base使用大小为2的窗口进行训练,通过扩散策略预测未来4步的7维动作。该模型是一个具有9300万个参数的Transformer(相当于ViT - B)。图像通过轻量级卷积编码器进行预处理后进行分词,然后分组为16x16的图像块。语言则通过应用T5分词器,然后使用T5 - Base语言编码器进行分词。
观察与任务规范
观察数据格式
{
image_primary: ('batch', 'history_window', 256, 256, 3),
image_wrist: ('batch', 'history_window', 128, 128, 3),
}
任务数据格式
{
image_primary: ('batch', 256, 256, 3),
image_wrist: ('batch', 128, 128, 3),
language_instruction: {
attention_mask: ('batch', 16),
input_ids: ('batch', 16),
},
}
在推理时,你可以传入这些观察和任务键的任意子集,历史窗口最长可达2个时间步。
训练数据集
该模型在Open X - Embodiment数据集中的多个数据集的混合数据上进行训练,各数据集在批次中的占比如下:
数据集 |
批次占比 |
Fractal (Brohan et al, 2022) |
17.0% |
Kuka (Kalashnikov et al, 2018) |
17.0% |
Bridge (Walke et al, 2023) |
17.0% |
BC - Z (Jang et al, 2022) |
9.1% |
Stanford Hydra Dataset (Belkhale et al, 2023) |
6.0% |
Language Table~ (Lynch et al, 2023) |
5.9% |
Taco Play (Rosete - Beas et al, 2022, Mees et al., 2023) |
3.6% |
Furniture Bench Dataset (Heo et al, 2023) |
3.3% |
UTAustin Mutex (Shah et al, 2023) |
3.0% |
Austin Sailor Dataset (Nasiriany et al, 2022) |
2.9% |
Roboturk (Mandlekar et al, 2018) |
2.8% |
Toto (Zhou et al, 2023) |
2.4% |
Austin Sirius Dataset (Liu et al, 2023) |
2.3% |
Berkeley Autolab UR5 (Chen et al) |
1.5% |
IAMLab CMU Pickup Insert (Saxena et al, 2023) |
1.2% |
Viola (Zhu et al, 2023) |
1.2% |
Berkeley Fanuc Manipulation (Zhu et al, 2023) |
1.0% |
NYU Franka Play Dataset (Cui et al, 2022) |
0.9% |
UCSD Kitchen Dataset (Ge Yan and Wang, 2023) |
<0.1% |
Jaco Play (Dass et al, 2023) |
0.6% |
Berkeley Cable Routing (Luo et al, 2023) |
0.3% |
Austin Buds Dataset (Zhu et al, 2022) |
0.3% |
CMU Stretch (Mendonca et al, 2023) |
0.2% |
NYU Door Opening (Pari et al, 2021) |
0.1% |
DLR EDAN Shared Control (Quere et al, 2020) |
0.1% |
📄 许可证
本项目采用MIT许可证。