🚀 Octo Base
Octo Base是一個用於機器人領域的模型,它通過特定的訓練方式和架構,能夠根據觀察和任務信息預測未來的動作,為機器人的決策和行動提供支持。
🚀 快速開始
有關如何使用此模型的說明,請參閱 這裡。
🔧 技術細節
模型訓練與架構
Octo Base使用大小為2的窗口進行訓練,通過擴散策略預測未來4步的7維動作。該模型是一個具有9300萬個參數的Transformer(相當於ViT - B)。圖像通過輕量級卷積編碼器進行預處理後進行分詞,然後分組為16x16的圖像塊。語言則通過應用T5分詞器,然後使用T5 - Base語言編碼器進行分詞。
觀察與任務規範
觀察數據格式
{
image_primary: ('batch', 'history_window', 256, 256, 3),
image_wrist: ('batch', 'history_window', 128, 128, 3),
}
任務數據格式
{
image_primary: ('batch', 256, 256, 3),
image_wrist: ('batch', 128, 128, 3),
language_instruction: {
attention_mask: ('batch', 16),
input_ids: ('batch', 16),
},
}
在推理時,你可以傳入這些觀察和任務鍵的任意子集,歷史窗口最長可達2個時間步。
訓練數據集
該模型在Open X - Embodiment數據集中的多個數據集的混合數據上進行訓練,各數據集在批次中的佔比如下:
數據集 |
批次佔比 |
Fractal (Brohan et al, 2022) |
17.0% |
Kuka (Kalashnikov et al, 2018) |
17.0% |
Bridge (Walke et al, 2023) |
17.0% |
BC - Z (Jang et al, 2022) |
9.1% |
Stanford Hydra Dataset (Belkhale et al, 2023) |
6.0% |
Language Table~ (Lynch et al, 2023) |
5.9% |
Taco Play (Rosete - Beas et al, 2022, Mees et al., 2023) |
3.6% |
Furniture Bench Dataset (Heo et al, 2023) |
3.3% |
UTAustin Mutex (Shah et al, 2023) |
3.0% |
Austin Sailor Dataset (Nasiriany et al, 2022) |
2.9% |
Roboturk (Mandlekar et al, 2018) |
2.8% |
Toto (Zhou et al, 2023) |
2.4% |
Austin Sirius Dataset (Liu et al, 2023) |
2.3% |
Berkeley Autolab UR5 (Chen et al) |
1.5% |
IAMLab CMU Pickup Insert (Saxena et al, 2023) |
1.2% |
Viola (Zhu et al, 2023) |
1.2% |
Berkeley Fanuc Manipulation (Zhu et al, 2023) |
1.0% |
NYU Franka Play Dataset (Cui et al, 2022) |
0.9% |
UCSD Kitchen Dataset (Ge Yan and Wang, 2023) |
<0.1% |
Jaco Play (Dass et al, 2023) |
0.6% |
Berkeley Cable Routing (Luo et al, 2023) |
0.3% |
Austin Buds Dataset (Zhu et al, 2022) |
0.3% |
CMU Stretch (Mendonca et al, 2023) |
0.2% |
NYU Door Opening (Pari et al, 2021) |
0.1% |
DLR EDAN Shared Control (Quere et al, 2020) |
0.1% |
📄 許可證
本項目採用MIT許可證。