🚀 Octo Base
Octo Base是一个用于机器人领域的模型,它能通过扩散策略预测未来4步的7维动作。本模型使用窗口大小为2进行训练,为机器人的动作规划提供了有效的解决方案。
🚀 快速开始
有关如何使用此模型的说明,请参阅:https://github.com/octo-models/octo 。
✨ 主要特性
- Octo Base使用窗口大小为2进行训练,可预测未来4步的7维动作。
- 模型是一个具有9300万个参数的Transformer(相当于ViT - B)。
- 图像通过轻量级卷积编码器预处理后进行标记化,然后分组为16x16的块。
- 语言通过应用T5分词器,然后应用T5 - Base语言编码器进行标记化。
🔧 技术细节
观测和任务规范
观测和任务遵循以下规范:
观测
{
image_primary: ('batch', 'history_window', 256, 256, 3),
image_wrist: ('batch', 'history_window', 128, 128, 3),
}
任务
{
image_primary: ('batch', 256, 256, 3),
image_wrist: ('batch', 128, 128, 3),
language_instruction: {
attention_mask: ('batch', 16),
input_ids: ('batch', 16),
},
}
在推理时,您可以传入这些观测和任务键的任何子集,历史窗口最多为2个时间步。
训练数据集
该模型在Open X - Embodiment数据集中的多个数据集的混合数据上进行训练。各数据集在批次中的占比如下:
数据集 |
批次占比 |
Fractal (Brohan et al, 2022) |
17.0% |
Kuka (Kalashnikov et al, 2018) |
17.0% |
Bridge (Walke et al, 2023) |
17.0% |
BC - Z (Jang et al, 2022) |
9.1% |
Stanford Hydra Dataset (Belkhale et al, 2023) |
6.0% |
Language Table~ (Lynch et al, 2023) |
5.9% |
Taco Play (Rosete - Beas et al, 2022, Mees et al., 2023) |
3.6% |
Furniture Bench Dataset (Heo et al, 2023) |
3.3% |
UTAustin Mutex (Shah et al, 2023) |
3.0% |
Austin Sailor Dataset (Nasiriany et al, 2022) |
2.9% |
Roboturk (Mandlekar et al, 2018) |
2.8% |
Toto (Zhou et al, 2023) |
2.4% |
Austin Sirius Dataset (Liu et al, 2023) |
2.3% |
Berkeley Autolab UR5 (Chen et al) |
1.5% |
IAMLab CMU Pickup Insert (Saxena et al, 2023) |
1.2% |
Viola (Zhu et al, 2023) |
1.2% |
Berkeley Fanuc Manipulation (Zhu et al, 2023) |
1.0% |
NYU Franka Play Dataset (Cui et al, 2022) |
0.9% |
UCSD Kitchen Dataset (Ge Yan and Wang, 2023) |
<0.1% |
Jaco Play (Dass et al, 2023) |
0.6% |
Berkeley Cable Routing (Luo et al, 2023) |
0.3% |
Austin Buds Dataset (Zhu et al, 2022) |
0.3% |
CMU Stretch (Mendonca et al, 2023) |
0.2% |
NYU Door Opening (Pari et al, 2021) |
0.1% |
DLR EDAN Shared Control (Quere et al, 2020) |
0.1% |
1.5版本更新
- 现在,语言任务标记在上下文窗口的每个时间步重复。
- 使用GPT - 3.5的改述对数据中的语言指令进行了扩充。
- 修复的问题:
- 由于与层归一化不兼容,关闭了扩散头中的Dropout。
- 修复了注意力掩码的偏移错误。
- 修复了不同图像增强未获得新随机种子的问题。
📄 许可证
本项目采用MIT许可证。