🚀 Octo Small
Octo Small 是一個用於機器人領域的模型,它能以特定的窗口大小進行訓練,並預測未來多個步驟的動作。本模型在多種數據集上進行訓練,具有一定的通用性和實用性。
🚀 快速開始
有關使用此模型的說明,請參閱 Octo 模型倉庫。
✨ 主要特性
- Octo Small 使用大小為 2 的窗口進行訓練,通過擴散策略預測未來 4 個步驟的 7 維動作。
- 該模型是一個具有 2700 萬個參數的 Transformer(相當於 ViT - S)。
- 圖像通過輕量級卷積編碼器進行預處理後進行分詞,然後分組為 16x16 的圖像塊。
- 語言通過應用 T5 分詞器,然後應用 T5 - Base 語言編碼器進行分詞。
🔧 技術細節
觀測和任務規範
觀測和任務遵循以下規範:
觀測
{
image_primary: ('batch', 'history_window', 256, 256, 3),
image_wrist: ('batch', 'history_window', 128, 128, 3),
}
任務
{
image_primary: ('batch', 256, 256, 3),
image_wrist: ('batch', 128, 128, 3),
language_instruction: {
attention_mask: ('batch', 16),
input_ids: ('batch', 16),
},
}
在推理時,您可以傳入這些觀測和任務鍵的任何子集,歷史窗口最多為 2 個時間步。
訓練數據集
該模型在 Open X - Embodiment 數據集中的多種數據集混合上進行訓練,各數據集在批次中的佔比如下:
數據集 |
批次佔比 |
Fractal (Brohan 等人, 2022) |
17.0% |
Kuka (Kalashnikov 等人, 2018) |
17.0% |
Bridge (Walke 等人, 2023) |
17.0% |
BC - Z (Jang 等人, 2022) |
9.1% |
Stanford Hydra 數據集 (Belkhale 等人, 2023) |
6.0% |
Language Table~ (Lynch 等人, 2023) |
5.9% |
Taco Play (Rosete - Beas 等人, 2022, Mees 等人, 2023) |
3.6% |
Furniture Bench 數據集 (Heo 等人, 2023) |
3.3% |
UTAustin Mutex (Shah 等人, 2023) |
3.0% |
Austin Sailor 數據集 (Nasiriany 等人, 2022) |
2.9% |
Roboturk (Mandlekar 等人, 2018) |
2.8% |
Toto (Zhou 等人, 2023) |
2.4% |
Austin Sirius 數據集 (Liu 等人, 2023) |
2.3% |
Berkeley Autolab UR5 (Chen 等人) |
1.5% |
IAMLab CMU Pickup Insert (Saxena 等人, 2023) |
1.2% |
Viola (Zhu 等人, 2023) |
1.2% |
Berkeley Fanuc Manipulation (Zhu 等人, 2023) |
1.0% |
NYU Franka Play 數據集 (Cui 等人, 2022) |
0.9% |
UCSD Kitchen 數據集 (Ge Yan 和 Wang, 2023) |
<0.1% |
Jaco Play (Dass 等人, 2023) |
0.6% |
Berkeley Cable Routing (Luo 等人, 2023) |
0.3% |
Austin Buds 數據集 (Zhu 等人, 2022) |
0.3% |
CMU Stretch (Mendonca 等人, 2023) |
0.2% |
NYU Door Opening (Pari 等人, 2021) |
0.1% |
DLR EDAN Shared Control (Quere 等人, 2020) |
0.1% |
📄 許可證
本項目採用 MIT 許可證。