Octo-base-1.5開源機器人多模態模型 - 憑視覺語言輸入預測動作

首頁

Octo Base 1.5

由rail-berkeley開發

Octo 是一個用於機器人技術的多模態基礎模型，能夠通過視覺和語言輸入預測機器人動作。

多模態融合

Transformers

開源協議:MIT #多攝像頭機器人控制 #擴散策略動作預測 #語言指令驅動

下載量 87

發布時間 : 5/21/2024

模型概述

Octo 基礎模型是一個結合視覺和語言輸入的Transformer架構，專為機器人控制任務設計。它能夠處理來自主攝像頭和腕部攝像頭的圖像輸入，並結合語言指令預測未來動作。

模型特點

多模態輸入處理

能夠同時處理視覺(雙攝像頭)和語言輸入

擴散策略預測

採用擴散策略預測未來4步的7維動作

靈活輸入支持

推理時可傳入任意子集的觀測和任務鍵

大規模訓練數據

基於Open X-Embodiment數據集的25個不同機器人數據集訓練

模型能力

視覺信息處理

語言指令理解

機器人動作預測

多模態數據融合

使用案例

機器人控制

基於視覺的物體操作

根據攝像頭輸入和語言指令執行抓取、放置等操作

任務導向型動作序列生成

根據語言描述生成完成特定任務所需的動作序列

🚀 Octo Base

Octo Base是一個用於機器人領域的模型，它能通過擴散策略預測未來4步的7維動作。本模型使用窗口大小為2進行訓練，為機器人的動作規劃提供了有效的解決方案。

🚀 快速開始

有關如何使用此模型的說明，請參閱：https://github.com/octo-models/octo 。

✨ 主要特性

Octo Base使用窗口大小為2進行訓練，可預測未來4步的7維動作。
模型是一個具有9300萬個參數的Transformer（相當於ViT - B）。
圖像通過輕量級卷積編碼器預處理後進行標記化，然後分組為16x16的塊。
語言通過應用T5分詞器，然後應用T5 - Base語言編碼器進行標記化。

🔧 技術細節

觀測和任務規範

觀測和任務遵循以下規範：

觀測

{
    image_primary: ('batch', 'history_window', 256, 256, 3),
    image_wrist: ('batch', 'history_window', 128, 128, 3),
}

任務

{
    image_primary: ('batch', 256, 256, 3),
    image_wrist: ('batch', 128, 128, 3),
    language_instruction: {
        attention_mask: ('batch', 16),
        input_ids: ('batch', 16),
    },
}

在推理時，您可以傳入這些觀測和任務鍵的任何子集，歷史窗口最多為2個時間步。

訓練數據集

該模型在Open X - Embodiment數據集中的多個數據集的混合數據上進行訓練。各數據集在批次中的佔比如下：

數據集	批次佔比
Fractal (Brohan et al, 2022)	17.0%
Kuka (Kalashnikov et al, 2018)	17.0%
Bridge (Walke et al, 2023)	17.0%
BC - Z (Jang et al, 2022)	9.1%
Stanford Hydra Dataset (Belkhale et al, 2023)	6.0%
Language Table~ (Lynch et al, 2023)	5.9%
Taco Play (Rosete - Beas et al, 2022, Mees et al., 2023)	3.6%
Furniture Bench Dataset (Heo et al, 2023)	3.3%
UTAustin Mutex (Shah et al, 2023)	3.0%
Austin Sailor Dataset (Nasiriany et al, 2022)	2.9%
Roboturk (Mandlekar et al, 2018)	2.8%
Toto (Zhou et al, 2023)	2.4%
Austin Sirius Dataset (Liu et al, 2023)	2.3%
Berkeley Autolab UR5 (Chen et al)	1.5%
IAMLab CMU Pickup Insert (Saxena et al, 2023)	1.2%
Viola (Zhu et al, 2023)	1.2%
Berkeley Fanuc Manipulation (Zhu et al, 2023)	1.0%
NYU Franka Play Dataset (Cui et al, 2022)	0.9%
UCSD Kitchen Dataset (Ge Yan and Wang, 2023)	<0.1%
Jaco Play (Dass et al, 2023)	0.6%
Berkeley Cable Routing (Luo et al, 2023)	0.3%
Austin Buds Dataset (Zhu et al, 2022)	0.3%
CMU Stretch (Mendonca et al, 2023)	0.2%
NYU Door Opening (Pari et al, 2021)	0.1%
DLR EDAN Shared Control (Quere et al, 2020)	0.1%