🚀 Octo Base
Octo Base是一個用於機器人領域的模型,它能通過擴散策略預測未來4步的7維動作。本模型使用窗口大小為2進行訓練,為機器人的動作規劃提供了有效的解決方案。
🚀 快速開始
有關如何使用此模型的說明,請參閱:https://github.com/octo-models/octo 。
✨ 主要特性
- Octo Base使用窗口大小為2進行訓練,可預測未來4步的7維動作。
- 模型是一個具有9300萬個參數的Transformer(相當於ViT - B)。
- 圖像通過輕量級卷積編碼器預處理後進行標記化,然後分組為16x16的塊。
- 語言通過應用T5分詞器,然後應用T5 - Base語言編碼器進行標記化。
🔧 技術細節
觀測和任務規範
觀測和任務遵循以下規範:
觀測
{
image_primary: ('batch', 'history_window', 256, 256, 3),
image_wrist: ('batch', 'history_window', 128, 128, 3),
}
任務
{
image_primary: ('batch', 256, 256, 3),
image_wrist: ('batch', 128, 128, 3),
language_instruction: {
attention_mask: ('batch', 16),
input_ids: ('batch', 16),
},
}
在推理時,您可以傳入這些觀測和任務鍵的任何子集,歷史窗口最多為2個時間步。
訓練數據集
該模型在Open X - Embodiment數據集中的多個數據集的混合數據上進行訓練。各數據集在批次中的佔比如下:
數據集 |
批次佔比 |
Fractal (Brohan et al, 2022) |
17.0% |
Kuka (Kalashnikov et al, 2018) |
17.0% |
Bridge (Walke et al, 2023) |
17.0% |
BC - Z (Jang et al, 2022) |
9.1% |
Stanford Hydra Dataset (Belkhale et al, 2023) |
6.0% |
Language Table~ (Lynch et al, 2023) |
5.9% |
Taco Play (Rosete - Beas et al, 2022, Mees et al., 2023) |
3.6% |
Furniture Bench Dataset (Heo et al, 2023) |
3.3% |
UTAustin Mutex (Shah et al, 2023) |
3.0% |
Austin Sailor Dataset (Nasiriany et al, 2022) |
2.9% |
Roboturk (Mandlekar et al, 2018) |
2.8% |
Toto (Zhou et al, 2023) |
2.4% |
Austin Sirius Dataset (Liu et al, 2023) |
2.3% |
Berkeley Autolab UR5 (Chen et al) |
1.5% |
IAMLab CMU Pickup Insert (Saxena et al, 2023) |
1.2% |
Viola (Zhu et al, 2023) |
1.2% |
Berkeley Fanuc Manipulation (Zhu et al, 2023) |
1.0% |
NYU Franka Play Dataset (Cui et al, 2022) |
0.9% |
UCSD Kitchen Dataset (Ge Yan and Wang, 2023) |
<0.1% |
Jaco Play (Dass et al, 2023) |
0.6% |
Berkeley Cable Routing (Luo et al, 2023) |
0.3% |
Austin Buds Dataset (Zhu et al, 2022) |
0.3% |
CMU Stretch (Mendonca et al, 2023) |
0.2% |
NYU Door Opening (Pari et al, 2021) |
0.1% |
DLR EDAN Shared Control (Quere et al, 2020) |
0.1% |
1.5版本更新
- 現在,語言任務標記在上下文窗口的每個時間步重複。
- 使用GPT - 3.5的改述對數據中的語言指令進行了擴充。
- 修復的問題:
- 由於與層歸一化不兼容,關閉了擴散頭中的Dropout。
- 修復了注意力掩碼的偏移錯誤。
- 修復了不同圖像增強未獲得新隨機種子的問題。
📄 許可證
本項目採用MIT許可證。