octo-base開源機器人控制模型 - 預測未來動作，處理多模態輸入

首頁

Octo Base

由rail-berkeley開發

Octo是一個基於擴散策略訓練的機器人控制基礎模型，能夠預測未來動作並處理多模態輸入。

多模態融合

Transformers

開源協議:MIT #多模態機器人控制 #擴散策略預測 #7維動作規劃

下載量 215

發布時間 : 12/13/2023

模型概述

Octo基礎模型是一個用於機器人控制的Transformer模型，通過處理視覺和語言輸入來預測未來動作。它支持多攝像頭輸入和語言指令，適用於各種機器人操作任務。

模型特點

多模態輸入處理

能夠同時處理來自主攝像頭和腕部攝像頭的視覺輸入，以及語言指令輸入

擴散策略訓練

採用先進的擴散策略進行模型訓練，提高動作預測的準確性

大規模數據集訓練

基於Open X-Embodiment混合數據集訓練，涵蓋26個不同機器人數據集

靈活輸入支持

推理時可輸入任意子集的觀測和任務鍵值，支持最多2個時間步長的歷史窗口

模型能力

視覺數據處理

語言指令理解

多步動作預測

多攝像頭輸入處理

機器人控制

使用案例

工業機器人

裝配線操作

控制工業機械臂完成產品裝配任務

物料搬運

指導機器人完成物品抓取和放置操作

服務機器人

家庭助理

執行日常家務任務如整理物品

餐飲服務

完成食品準備和送餐任務

🚀 Octo Base

Octo Base是一個用於機器人領域的模型，它通過特定的訓練方式和架構，能夠根據觀察和任務信息預測未來的動作，為機器人的決策和行動提供支持。

🚀 快速開始

有關如何使用此模型的說明，請參閱這裡。

🔧 技術細節

模型訓練與架構

Octo Base使用大小為2的窗口進行訓練，通過擴散策略預測未來4步的7維動作。該模型是一個具有9300萬個參數的Transformer（相當於ViT - B）。圖像通過輕量級卷積編碼器進行預處理後進行分詞，然後分組為16x16的圖像塊。語言則通過應用T5分詞器，然後使用T5 - Base語言編碼器進行分詞。

觀察與任務規範

觀察數據格式

{
    image_primary: ('batch', 'history_window', 256, 256, 3),
    image_wrist: ('batch', 'history_window', 128, 128, 3),
}

任務數據格式

{
    image_primary: ('batch', 256, 256, 3),
    image_wrist: ('batch', 128, 128, 3),
    language_instruction: {
        attention_mask: ('batch', 16),
        input_ids: ('batch', 16),
    },
}

在推理時，你可以傳入這些觀察和任務鍵的任意子集，歷史窗口最長可達2個時間步。

訓練數據集

該模型在Open X - Embodiment數據集中的多個數據集的混合數據上進行訓練，各數據集在批次中的佔比如下：

數據集	批次佔比
Fractal (Brohan et al, 2022)	17.0%
Kuka (Kalashnikov et al, 2018)	17.0%
Bridge (Walke et al, 2023)	17.0%
BC - Z (Jang et al, 2022)	9.1%
Stanford Hydra Dataset (Belkhale et al, 2023)	6.0%
Language Table~ (Lynch et al, 2023)	5.9%
Taco Play (Rosete - Beas et al, 2022, Mees et al., 2023)	3.6%
Furniture Bench Dataset (Heo et al, 2023)	3.3%
UTAustin Mutex (Shah et al, 2023)	3.0%
Austin Sailor Dataset (Nasiriany et al, 2022)	2.9%
Roboturk (Mandlekar et al, 2018)	2.8%
Toto (Zhou et al, 2023)	2.4%
Austin Sirius Dataset (Liu et al, 2023)	2.3%
Berkeley Autolab UR5 (Chen et al)	1.5%
IAMLab CMU Pickup Insert (Saxena et al, 2023)	1.2%
Viola (Zhu et al, 2023)	1.2%
Berkeley Fanuc Manipulation (Zhu et al, 2023)	1.0%
NYU Franka Play Dataset (Cui et al, 2022)	0.9%
UCSD Kitchen Dataset (Ge Yan and Wang, 2023)	<0.1%
Jaco Play (Dass et al, 2023)	0.6%
Berkeley Cable Routing (Luo et al, 2023)	0.3%
Austin Buds Dataset (Zhu et al, 2022)	0.3%
CMU Stretch (Mendonca et al, 2023)	0.2%
NYU Door Opening (Pari et al, 2021)	0.1%
DLR EDAN Shared Control (Quere et al, 2020)	0.1%