🚀 Octo Small
Octo Small是一个用于机器人领域的模型。它能以窗口大小2进行训练,使用扩散策略预测未来4步的7维动作。本模型为具有2700万个参数的Transformer(相当于ViT - S)。用户可参考此链接获取该模型的使用说明。
🚀 快速开始
请访问https://github.com/octo-models/octo获取使用此模型的详细说明。
✨ 主要特性
- Octo Small使用窗口大小为2进行训练,借助扩散策略预测未来4步的7维动作。
- 模型采用Transformer架构,拥有2700万个参数,与ViT - S相当。
- 图像通过轻量级卷积编码器预处理后进行分词,然后分组为16x16的图像块。
- 语言通过T5分词器进行分词,再使用T5 - Base语言编码器。
🔧 技术细节
观察与任务规范
观察数据
{
image_primary: ('batch', 'history_window', 256, 256, 3),
image_wrist: ('batch', 'history_window', 128, 128, 3),
}
任务数据
{
image_primary: ('batch', 256, 256, 3),
image_wrist: ('batch', 128, 128, 3),
language_instruction: {
attention_mask: ('batch', 16),
input_ids: ('batch', 16),
},
}
在推理时,你可以传入这些观察和任务键的任意子集,历史窗口最多为2个时间步。
训练数据集
本模型在Open X - Embodiment数据集中的多个数据集组合上进行训练,各数据集在批次中的占比如下:
数据集 |
批次占比 |
Fractal (Brohan et al, 2022) |
17.0% |
Kuka (Kalashnikov et al, 2018) |
17.0% |
Bridge (Walke et al, 2023) |
17.0% |
BC - Z (Jang et al, 2022) |
9.1% |
Stanford Hydra Dataset (Belkhale et al, 2023) |
6.0% |
Language Table~ (Lynch et al, 2023) |
5.9% |
Taco Play (Rosete - Beas et al, 2022, Mees et al., 2023) |
3.6% |
Furniture Bench Dataset (Heo et al, 2023) |
3.3% |
UTAustin Mutex (Shah et al, 2023) |
3.0% |
Austin Sailor Dataset (Nasiriany et al, 2022) |
2.9% |
Roboturk (Mandlekar et al, 2018) |
2.8% |
Toto (Zhou et al, 2023) |
2.4% |
Austin Sirius Dataset (Liu et al, 2023) |
2.3% |
Berkeley Autolab UR5 (Chen et al) |
1.5% |
IAMLab CMU Pickup Insert (Saxena et al, 2023) |
1.2% |
Viola (Zhu et al, 2023) |
1.2% |
Berkeley Fanuc Manipulation (Zhu et al, 2023) |
1.0% |
NYU Franka Play Dataset (Cui et al, 2022) |
0.9% |
UCSD Kitchen Dataset (Ge Yan and Wang, 2023) |
<0.1% |
Jaco Play (Dass et al, 2023) |
0.6% |
Berkeley Cable Routing (Luo et al, 2023) |
0.3% |
Austin Buds Dataset (Zhu et al, 2022) |
0.3% |
CMU Stretch (Mendonca et al, 2023) |
0.2% |
NYU Door Opening (Pari et al, 2021) |
0.1% |
DLR EDAN Shared Control (Quere et al, 2020) |
0.1% |
📚 详细文档
1.5版本更新内容
- 语言任务令牌现在在上下文窗口的每个时间步重复。
- 使用GPT - 3.5的改述对数据中的语言指令进行增强。
- 修复了以下问题:
- 由于与层归一化不兼容,关闭了扩散头中的Dropout。
- 修复了注意力掩码的差一错误。
- 修复了不同图像增强未获得新随机种子的问题。
📄 许可证
本项目采用MIT许可证。